Автор Маниш Кумар

Метаданные — это данные, которые описывают другие данные. Он структурирован по своей природе и используется для обнаружения, аудита, управления или помощи в определении атрибутов данных, которые он представляет. Метаданные могут быть побочным продуктом автоматизированной транзакции или могут быть добавлены вручную для описания данных.

На каждом этапе жизненного цикла машинного обучения генерируются метаданные. Каждый запуск конвейера генерирует информацию о различных артефактах, моделях и наборах данных, задействованных на каждом этапе. Эта сгенерированная информация является метаданными. Например, обучение модели генерирует метаданные о запусках эксперимента, такие как версия набора данных, гиперпараметры обучения и результирующая точность. У развертываний также есть свои собственные метаданные — версия модели, кто ее развернул, показатели производительности в реальном времени и т. д.

Понятно, что метаданные являются важной опорой измерения в жизненном цикле машинного обучения. Они жизненно важны для понимания и анализа различных взаимосвязанных, движущихся, развивающихся и часто меняющихся частей конвейера машинного обучения.

На диаграмме ниже показаны вопросы, которые вы можете задать на каждом этапе жизненного цикла машинного обучения. Каждый из этих вопросов имеет связанные метаданные, которые могут помочь вам понять текущую производительность вашей модели и определить, каким должен быть следующий шаг. Вот почему отслеживание метаданных вашего конвейера машинного обучения должно быть главным приоритетом.

Существуют различные типы ценных метаданных машинного обучения, которые стоит отслеживать, но вот несколько важных типов, с которых стоит начать:

  1. Аудит — отслеживает изменения, внесенные в конвейер, например: пользователь, создание модели, конфигурация.
  2. Эксперименты — Отслеживайте метаданные, созданные во время обучения модели и экспериментов.
  3. Набор данных — Отслеживайте, какой набор данных и версия набора данных используется той или иной версией модели.
  4. Происхождение — Создайте матрицу прослеживаемости по всему конвейеру.
  5. Показатели принятия решений. Отслеживайте статистические показатели, такие как точность, балл F1, частота ошибок и т. д., при обучении и проверке, чтобы понять, какая модель работает лучше.
  6. Управление версиями. Эффективно управляйте версией кода или моментальным снимком кода, используемым при создании модели.

Отслеживание всех этих метаданных и доступность связанной линии данных у вас под рукой ранее было практически невозможно. В InfuseAI мы решаем эту проблему с помощью нашей новой линейки продуктов — PipeRider.

Piperider — это «всевидящее око» для отслеживания метаданных и управления изменениями в конвейере машинного обучения.

Возможность отслеживания событий на уровне конвейера в PipeRider позволяет получить представление о любых изменениях данных или введении новых данных, таких как наборы данных, результаты экспериментов, версии моделей или развертывания и т. д.

Захваченные события представлены на временной шкале, чтобы их можно было легко просмотреть. Это позволяет пользователям лучше сотрудничать и предпринимать действия на основе событий, вызванных изменениями метаданных. Типичным примером могут быть изменения в наборе данных, используемом для обучения модели. Средство отслеживания событий вызовет уведомление об обновлениях, что позволит увидеть изменения на временной шкале. Это отслеживание событий происходит за счет облегченной интеграции SDK.

PipeRider помогает пролить свет на «черный ящик» метаданных машинного обучения, позволяя инженерам данных, специалистам по данным и владельцам бизнеса лучше понять, когда и как изменяются метаданные, а также как эти изменения влияют на реальную производительность.

Узнайте больше о PipeRider:

Целевая страница PipeRider: https://www.piperider.io

Автостоп PipeRider: https://blog.infuseai.io/piperider-hitchhike-a-ride-at-any-point-of-machine-learning-pipeline-5dc7e50df974

Информация для разработчиков и прототип SDK: https://docsend.com/view/fti8z4qwrytb9k44