В этой статье с использованием AWS; Хранение данных и применение алгоритмов машинного обучения к сохраненным данным объясняются на простом примере.
Первым использованным инструментом AWS был S3, Simple Storage Service, то есть простой сервис хранения данных. (Следует отметить, что служба хранения и область хранения — это разные вещи.) Используя S3, данные можно хранить в Интернете столько, сколько необходимо, и к ним можно получить доступ в любое время. Кроме того, можно создать группы пользователей IAM, чтобы определить, каким пользователям данных разрешен доступ.
Для получения дополнительной информации о S3: https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html
В качестве первого шага проекта мы создали корзину в S3. Ведро можно рассматривать как создание пакета для хранения связанных данных в общем заголовке. Пока можно сказать, что новый проект — это новое ведро. Сегменты являются глобальными, поэтому их имена должны быть уникальными.
Когда мы открыли созданную нами корзину, мы загрузили файлы с помощью кнопки «загрузить». В этом исследовании записанные данные о погоде в Лондоне в период с 1979 по 2020 год были загружены в формате CSV.
Ссылка на использование того же файла данных: https://www.kaggle.com/datasets/emmanuelfwerr/london-weather-data
Amazon SageMaker — это сервис для создания моделей машинного обучения.
Для получения дополнительной информации о SageMaker: https://docs.aws.amazon.com/sagemaker/latest/dg/whatis.html
Мы создали новый экземпляр, нажав кнопку «Создать экземпляр Notebook» на странице Amazon SageMaker.
Мы выбрали экземпляр, нажали кнопку «Действия» и выбрали «Пуск». Статус обновлен до Pending, затем InService. Затем мы нажали «Открыть Jupyter» рядом с экземпляром.
Мы создали новую записную книжку под именем conda_python3 и получили доступ к данным, хранящимся в S3, для применения машинного обучения.
import pandas as pd import numpy as np bucket = 'our-first-training-project' data_key = 'london_weather.csv' data_locations = 's3://{}/{}'.format(bucket, data_key) model_data = pd.read_csv(data_location)
Теперь мы можем применить любой алгоритм машинного обучения к данным. Вы можете обратиться к следующей статье, чтобы просмотреть пример шагов приложения машинного обучения.
Примечание. Не забудьте остановить созданные вами экземпляры, когда закончите. Выставление счетов продолжается до тех пор, пока экземпляр активен.