В этой статье с использованием AWS; Хранение данных и применение алгоритмов машинного обучения к сохраненным данным объясняются на простом примере.

Первым использованным инструментом AWS был S3, Simple Storage Service, то есть простой сервис хранения данных. (Следует отметить, что служба хранения и область хранения — это разные вещи.) Используя S3, данные можно хранить в Интернете столько, сколько необходимо, и к ним можно получить доступ в любое время. Кроме того, можно создать группы пользователей IAM, чтобы определить, каким пользователям данных разрешен доступ.

Для получения дополнительной информации о S3: https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html

В качестве первого шага проекта мы создали корзину в S3. Ведро можно рассматривать как создание пакета для хранения связанных данных в общем заголовке. Пока можно сказать, что новый проект — это новое ведро. Сегменты являются глобальными, поэтому их имена должны быть уникальными.

Когда мы открыли созданную нами корзину, мы загрузили файлы с помощью кнопки «загрузить». В этом исследовании записанные данные о погоде в Лондоне в период с 1979 по 2020 год были загружены в формате CSV.

Ссылка на использование того же файла данных: https://www.kaggle.com/datasets/emmanuelfwerr/london-weather-data

Amazon SageMaker — это сервис для создания моделей машинного обучения.

Для получения дополнительной информации о SageMaker: https://docs.aws.amazon.com/sagemaker/latest/dg/whatis.html

Мы создали новый экземпляр, нажав кнопку «Создать экземпляр Notebook» на странице Amazon SageMaker.

Мы выбрали экземпляр, нажали кнопку «Действия» и выбрали «Пуск». Статус обновлен до Pending, затем InService. Затем мы нажали «Открыть Jupyter» рядом с экземпляром.

Мы создали новую записную книжку под именем conda_python3 и получили доступ к данным, хранящимся в S3, для применения машинного обучения.

import pandas as pd
import numpy as np
bucket = 'our-first-training-project'
data_key = 'london_weather.csv'
data_locations = 's3://{}/{}'.format(bucket, data_key)
model_data = pd.read_csv(data_location)

Теперь мы можем применить любой алгоритм машинного обучения к данным. Вы можете обратиться к следующей статье, чтобы просмотреть пример шагов приложения машинного обучения.

Примечание. Не забудьте остановить созданные вами экземпляры, когда закончите. Выставление счетов продолжается до тех пор, пока экземпляр активен.