Краткое введение. Создание магазина функций машинного обучения кажется многообещающей идеей для любой организации, разрабатывающей и внедряющей модели машинного обучения. Feature Store помогает избежать тонны дублирования работы (например, разработки функций), установить стандартную номенклатуру и стандарт описания функций в организации и обеспечить согласованность между обработкой и обслуживанием функций онлайн и офлайн. Излишне говорить, что сэкономленные усилия и время можно потратить на то, чтобы вывести инициативы организации в области машинного обучения на новый уровень. На приведенной ниже диаграмме объясняются ключевые функции хранилища функций:

Магазин функций предоставляет возможности (от базовых до расширенных в порядке возрастания приоритета), такие как:

1. Реестр функций

2. Обнаружение функций

3. Трансформация

4. Хранение

5. Обслуживание для обучения и умозаключений (офлайн/онлайн)

6. Мониторинг

У каждой организации есть свои сильные стороны и приоритеты, поэтому имеет смысл взвесить все за и против, прежде чем отправиться в путешествие по Feature Store. Анализ «Создать или купить» очень важен, так как сегодня создание Feature Store может показаться привлекательной идеей, но вы, возможно, не захотите постоянно инвестировать в обновление, улучшение и обслуживание своего домашнего Feature Store навсегда. Помните, что Feature Stores все еще развиваются, и в долгосрочной перспективе это может потребовать огромных затрат времени и усилий, которые уведут вас далеко от вашей первоначальной миссии продукта. В этой статье мы обсудим 3 важных соображения, которые могут помочь вам в дальнейшем.

№1 Возможно, вам сейчас не нужен полноценный магазин функций, но со временем он понадобится: Это также означает, что вместо подхода «все или ничего» вы можете планировать свое путешествие поэтапно. Честная оценка потребностей, безусловно, хорошая идея. Например, организации, использующие до 10 моделей машинного обучения, могут легко применить простой поэтапный подход. Помните, что Feature Store потребует значительных усилий и ресурсов, что может быть не очень хорошей идеей на вашем этапе. Для вашего штата лучше всего начать с Feature Registry. С 10 моделями в производстве ваша команда по науке о данных должна быть разумного размера (4–5 человек), и общение / сотрудничество между членами команды не будет проблемой. Следовательно, начать с Реестра функций со стандартным шаблоном именования и описания функций будет хорошим началом. В качестве следующего логического шага вы можете использовать репозиторий git для хранения, версии и совместного использования библиотек кода для конвейера функций, чтобы их можно было повторно использовать в организации.

№2 Магазины функций с открытым исходным кодом, такие как Feast и Hopsworks, многообещающие, но все еще развиваются: Featurestore.org — хорошее место для сравнительного изучения различных лицензионных или открытых магазинов функций. На мой взгляд, Feast лучше, чем другие варианты с открытым исходным кодом, и может стать хорошей отправной точкой. Тем не менее, в нем есть некоторые пробелы. Прежде всего, стек Feast тесно связан с GCP по всем правильным причинам, но это уводит его далеко от других облачных сред, таких как AWS и Azure. Feast в значительной степени полагался на BigQuery, Apache Beam on Dataflow и Apache Kafka для быстрого предоставления функциональности, но на данный момент он создал своего рода замок с GCP. Согласно их блогу, команда Feast признала этот факт и стала более совместимым с несколькими облаками решением. В последнем выпуске 0.12 (11 августа 2021 г.) AWS Redshift добавлен в качестве автономного хранилища данных, а Dynamo DB — в качестве интернет-магазина. Вот отличная статья, чтобы понять направление Feast. Я попытался запечатлеть ключевые элементы на изображениях ниже:

№3 AWS имеет встроенный магазин функций и может стать хорошей отправной точкой для всех, кто уже использует эту платформу: Благодаря дополнительным затратам вы можете начать работу довольно быстро, не тратя много времени. Конвейеры функций можно создавать с помощью Step Functions, SageMaker Pipelines или Apache Airflow.

Следует отметить, насколько плавно SageMaker Pipelines помогает вам использовать лучшие в своем классе методы CI/CD и DevOps (также известные как MLOps), и вы можете создавать полноценный рабочий процесс с помощью визуального интерфейса или Python SDK. AWS Feature Store поставляется с модулями создания, обработки, обнаружения, обучения/пакетной оценки и интерактивными логическими выводами. Я должен признать, что AWS проделала потрясающую работу, предоставив все возможности, начиная от приема данных, обработки, разработки функций, обучения моделей, тестирования, развертывания, управления жизненным циклом и мониторинга на одной платформе. Следовательно, если вы уже работаете с AWS, то для вас может иметь смысл рассмотреть AWS Feature Store.