Начало работы с машинным обучением в GCP - часть 1. Обеспечение доступности и доступности данных

Последние несколько месяцев мы работали над улучшением анализа данных и инновациями. Мы достигли этого, скопировав данные из локальных систем на новую платформу данных на GCP.

Простые в использовании и мощные инструменты платформы данных GCP доказали свою ценность при настройке полного конвейера данных; переход от пустого листа к настройке функционального машинного обучения (ML) оказался быстрым и экономичным.

В этой серии статей я покажу, как мы можем получить данные из локальной системы за один раз, загрузить их в GCP и начать работать с машинным обучением, используя доступные инструменты.

Мы рассмотрим следующие шаги:

  1. Извлечение данных - обеспечение доступности и доступности данных
  2. Исследование и очистка данных - сделать данные чистыми и пригодными для использования
  3. Моделирование - Прогнозы

На первом этапе мы экспортируем данные из базы данных в файл и загружаем их в Google BigQuery с помощью Хранилища Google. Этот первый и важный шаг сделал данные легкодоступными и доступными для всех сотрудников организации, которые хотят с ними работать. После этого мы готовы приступить к экспериментам с данными.

Во-вторых, мы можем использовать Платформу Googles AI для размещения Блокнотов Jupyter для исследования данных. Этот шаг предоставляет специалистам по обработке данных среду, в которой они могут многократно исследовать и анализировать необработанные данные. Это позволяет провести исследовательский процесс, в ходе которого мы можем узнать и выявить любые проблемы с нашими данными. Когда мы узнаем наши данные, мы будем использовать Google Dataflow, среду выполнения Apache Beam, чтобы создать очищенную версию нашего набора данных.

В-третьих, мы будем использовать предложение Googles AutoML под названием BigQueryML и его пункты преобразования для проектирования, выбора функций и моделирования. BigQueryML обеспечивает автоматизированный процесс обучения и настройки гиперпараметров моделей, что значительно сокращает время, необходимое для разработки модели. Я также продемонстрирую, как можно встроить разработку функций и раздел в BigQuery ML, используя предложения преобразования и XGboost для регрессии.

Наконец, мы завершим самый важный шаг и проверим прогноз, сделанный нашей моделью.

Обеспечение доступности и доступности данных

Чтобы сделать вещи более интересными, мы будем использовать наборы данных, содержащие данные о торговле криптовалютой Биткойн. Мы будем использовать эти данные с целью прогнозирования будущей цены биткойна.
Набор данных содержит открытие, закрытие, максимум, минимум и объем торговли биткойнами на основе монет с 2015-08-01 по 2020-10 –21

Самый простой способ начать работу с данными в GCP - просто сохранить набор данных в корзине Google Storage. Google Storage - это хранилище объектов, которое позволяет использовать неограниченное и дешевое хранилище на GCP. Вы можете обратиться к официальным руководствам для получения инструкций о том, как создавать свои ведра.

Если вы хотите писать код вместе, вы можете получить доступ к данным в нашей публичной корзине здесь.

BigQuery - это полностью управляемая служба хранения больших данных, предлагаемая Google на GCP. Это позволяет хранить чрезвычайно большие наборы данных и получать к ним доступ очень многим одновременно работающим пользователям. Он автоматически масштабируется под поверхностью, устраняя некоторые головные боли, обычно связанные с управлением большими данными, такими как управление и масштабирование инфраструктуры или IAM. Просто загрузите данные, и все готово.

Примечание: когда говорят о больших данных, обычно говорят о петабайтах или эксабайтах данных. Не позволяйте этому разочаровывать вас: мы обнаружили, что BigQuery также отлично работает в качестве хранилища функций для приложений AI / ML, даже для средних или небольших данных.

Нажмите кнопку «Создать набор данных» и дайте набору данных красивое имя. Я оставил все настройки по умолчанию для этой демонстрации.

Когда набор данных будет создан, выберите его и нажмите «Создать таблицу».

Выберите ведро и файл, выберите правильный формат ввода. Файл, который мы используем для этой демонстрации, имеет заголовок, поэтому BigQuery может автоматически определять схему. При желании вы можете ввести его самостоятельно.

Через несколько минут данные будут доступны в левом столбце.
Отсюда легко начать работу с данными, используя стандартный SQL в вашем браузере.

Вы также можете использовать Google Data Studio для визуализации данных и получения быстрого обзора.

Резюме

С помощью нескольких простых щелчков мышью (не считая фактического экспорта данных в файл, история для другого раза) мы сделали данные, которые ранее были труднодоступными и трудными для анализа, легко доступными как для приложений, так и для специалистов по данным.

В следующей части этой серии я расскажу о том, как мы можем использовать платформу Googles AI и записные книжки Jupyter для интеграции с BigQuery и дальнейшего анализа данных, а также о том, как создать конвейер Apache Beam, работающий в Google Dataflow. Вы можете найти это здесь".