Переосмысление MLOps как ценностно-ориентированного подхода к достижению последней мили машинного обучения.

По мере того, как компании переходят к принятию решений на основе данных, а также с появлением больших данных, машинного обучения (МО) и искусственного интеллекта (ИИ), операции машинного обучения (МЛОпс) были введены в действие, чтобы помочь сделать анализ данных действенным в бизнесе. реальный мир. Другими словами, миссия MLOps состоит в том, чтобы предоставлять ИИ, который создает ценность для бизнеса за счет внедрения машинного обучения.

Эта цель подразумевает, что команды инженеров по данным, специалистов по данным и инженеров по машинному обучению будут сотрудничать, используя соответствующие инструменты и процессы для автоматизации и интеграции результатов машинного обучения в основные бизнес-системы и операции для достижения стратегических результатов. Например, чтобы стимулировать рост и продажи, розничные продавцы используют исторические данные о поведении потребителей для разработки машинного обучения, которое интегрируется в их платформу электронной коммерции, чтобы помочь адаптировать покупательский опыт к своим целевым потребительским сегментам. Точно так же производители все больше и больше полагаются на машинное обучение для оптимизации работы своих заводов. Распространенным вариантом использования является профилактическое обслуживание, когда ML используется для прогнозирования того, когда часть оборудования необходимо будет заменить или отремонтировать, сокращая время простоя производственной деятельности.

Когда мы смотрим на то, как MLOps сегодня управляется как дисциплина, перед учеными данных стоит задача разработки и обучения моделей с использованием различных технологий и фреймворков, в то время как перед инженерами машинного обучения стоит задача взять модели, созданные учеными данных, и сделать их функциональными и действенными. в производстве". Это исходит из предположения, что между наукой о данных и инженерией существует взаимосвязь, когда речь идет о «производстве» моделей.

Однако, несмотря на то, что многие специалисты по обработке и анализу данных могут быть счастливы передать свои модели команде инженеров машинного обучения для развертывания в производственной среде, этот процесс в том виде, в каком он реализован в настоящее время, имеет тенденцию создавать технологические и культурные разрозненности, которые трудно разрушить по мере роста команд и сложности. в дополнение к неясному праву собственности на конечный продукт.

В результате, когда модели начинают вести себя неправильно в производственной среде, часто бывает сложно диагностировать проблему:

Это ошибка в производственном стеке, которая привела к падению производительности модели?
Или что-то не так с данными или самой моделью?

Это может привести к узким местам в общении и координации, поскольку специалисты по данным часто не имеют доступа к производственной среде, а имеющиеся в их распоряжении инструменты устранения неполадок непросты в использовании для специалиста по данным.

Имея это в виду, важно сделать шаг назад и пересмотреть реальную цель MLOps для любой организации, которая выходит за рамки механики и тактики «производства» моделей ML. Сосредоточив внимание на измерении влияния машинного обучения на бизнес-результаты с помощью MLOps, мы переходим от подхода, ориентированного на задачи, к подходу, ориентированному на ценность, который обеспечивает доставку последней мили машинного обучения для бизнеса и получение окупаемости инвестиций от машинного обучения.

Последняя миля машинного обучения сосредоточена на сокращении разрыва между созданием идей (также называемых обученной моделью) и создаваемой ценностью или рентабельностью инвестиций. Другими словами, «последняя миля» машинного обучения облегчает переход от экспериментального ИИ к промышленному ИИ.

Сегодня, за исключением нескольких компаний, большинство усилий MLOps сосредоточено на части создания Insight, что объясняет разнообразие решений и технологий, которые мы находим сегодня, которые в определенной степени помогают с подготовкой данных, обучением модели и развертыванием модели. Когда дело доходит до реализации ценности от ML, которая вращается вокруг принятия решений с помощью ИИ и простого измерения влияния ИИ на выполнение необходимых действий, такой концентрации не так много. Это может быть связано с тем, что существует мнение, что методы, применяемые в настоящее время для стандартного развертывания программного обеспечения или DevOps, могут быть перепрофилированы для машинного обучения.

Это восприятие сегодня представляет всевозможные проблемы, такие как:

Масштаб. Как вы масштабируете свои текущие инструменты/инфраструктуру для развертывания и обслуживания тысяч сложных моделей в различных модальностях данных?
Операционная эффективность. Нужно ли экспоненциально расти вашей команде MLOps по мере масштабирования моделей и данных?
Повторяемость. Как найти согласованные процессы и методы, позволяющие извлечь выгоду из машинного обучения в любом масштабе?
Действенность. По мере масштабирования операций машинного обучения у вас есть необходимая видимость, чтобы иметь возможность своевременно принимать корректирующие и превентивные меры?

Наша миссия в Wallaroo — помочь нашим клиентам осознать ценность своих инвестиций в ИИ и машинное обучение. Вот почему мы постоянно инвестируем в создание технологической платформы, которая упрощает последнюю милю пути машинного обучения. Поскольку мы знаем, что нужно для индустриализации машинного обучения, мы разработали специально созданную платформу, которая позволяет командам MLOps развертывать, управлять, наблюдать и оптимизировать свои модели машинного обучения в производстве в масштабе, воспроизводимым образом и с оптимальной эффективностью.

Имея это в виду, мы не стремимся диктовать новый способ сквозного машинного обучения, а скорее органично интегрируемся с инструментами и экосистемами, которые используют наши клиенты, чтобы довести машинное обучение до финиша и получить возможность масштабирования. это эффективно для обеспечения значимой окупаемости инвестиций в их бизнесе.

Платформа Wallaroo представляет собой 3 интегрированных компонента:

Инструментарий самообслуживания. Это компонент, который позволяет специалистам по данным загружать, развертывать и управлять своими моделями машинного обучения на платформе Wallaroo. Он поставляется с SDK, пользовательским интерфейсом и API, чтобы обеспечить плавный переход от обучения к работе.
Ядро распределенных вычислений. Производительность Wallaroo обеспечивается его специально созданным механизмом логических выводов, который поддерживает распределенные вычисления. Движок Wallaroo может анализировать до 100 000 событий в секунду на одном сервере по сравнению со средним показателем по отрасли — 5 000 событий в секунду. В среднем наши клиенты видят, что сложные модели глубокого обучения работают в 5–12,5 раз быстрее, используя на 80 % меньше инфраструктуры по сравнению с их предыдущими развертываниями.
Наблюдаемость.Одним из ключевых требований для успешного достижения машинного обучения последней мили является способность измерять влияние машинного обучения и предпринимать соответствующие действия. Усовершенствованная наблюдаемость Wallaroo позволяет специалистам по обработке и анализу данных и инженерам по машинному обучению получать необходимые сведения о мониторинге и объяснимости моделей, чтобы точно знать, что происходит, и иметь возможность своевременно реагировать на это.

Как выглядит последняя миля машинного обучения в Валлару?

Поскольку мы разработали платформу, на которой специалисты по данным и инженеры по машинному обучению эффективно сотрудничают, чтобы быстрее запускать свои модели в производство, масштабировать развертывание, управление и наблюдаемость машинного обучения для предоставления действенного ИИ, мы сосредоточили опыт использования продукта в Wallaroo на 4 ключевых элементах: Развертывание модели, Управление моделью, Наблюдаемость модели и Оптимизация модели

Развертывание модели основано на следующих возможностях:

Загрузка модели: использование набора инструментов самообслуживания Wallaroo для преобразования моделей из любой платформы в открытый формат, который Wallaroo использует для запуска моделей. Это можно сделать с помощью пользовательского интерфейса, SDK и API в зависимости от того, где артефакты модели управляются после обучения.
Конвейеры развертывания. Это основная концепция Wallaroo, в которой модели запускаются для получения одиночных или пакетных выводов. Например, если у вас есть связанные модели, производящие один результат, конвейеры Wallaroo упрощают развертывание и интеграцию этих моделей с системами, которые будут потреблять их выходные данные, используя единый связанный интерфейс и без дополнительных затрат.
Автомасштабирование. Каждый конвейер развертывания может увеличивать или уменьшать использование ресурсов, чтобы обеспечить оптимальную производительность и удобство использования как для нижестоящих систем, использующих выходные данные модели, так и для специалистов по данным и инженеров по машинному обучению, стремящихся измерить производительность своих развертываний (подробнее подробности здесь).

В рамках Управление моделями в Wallaroo мы представили концепцию рабочих областей, чтобы помочь специалистам по данным и инженерам по машинному обучению эффективно сотрудничать при развертывании, что является расширенной версией типичной модели. реестр, предлагаемый другими решениями для развертывания. Это также помогает командам MLOps масштабировать свои развертывания, добавляя больше контекста и безопасности при развертывании своих моделей. Например, эта концепция используется нашими клиентами для организации их развертывания по рынку, региону, местоположению или даже по команде в зависимости от варианта использования. В рамках масштабного управления своими моделями в производстве специалисты по данным могут попробовать различные стратегии развертывания, такие как A/B-тестирование, канареечное развертывание, теневое развертывание и сине-зеленые стратегии, чтобы определить лучшие модели для запуска. Как только это произойдет, замена существующей модели моделью с более высокой производительностью может быть произведена за считанные секунды с помощью горячей замены и без каких-либо перерывов.

Когда дело доходит до наблюдаемости модели в Wallaroo, важно убедиться, что конвейеры развертывания исправны и работают в соответствии с планом с соответствующими требованиями к пропускной способности и задержке, которые были изначально определены. . Доступ к этим метрикам дает представление о любой потенциальной модели или инфраструктурных действиях, которые необходимо предпринять (подробнее здесь).

В то же время специалисты по обработке и анализу данных могут настроить набор проверок и предупреждений, используя тесты Wallaroo, чтобы иметь возможность отслеживать дрейф модели и данных. Кроме того, специалисты по данным могут создавать локальные и глобальные отчеты об объяснимости для своих развернутых моделей, чтобы получить представление об атрибутах, которые способствовали определенному прогнозу или набору прогнозов.

В рамках нашего опыта оптимизации моделей мы вкладываем средства в предоставление специалистам по обработке и анализу данных полезных сведений, чтобы они могли быстро и упреждающе настраивать данную модель. Кроме того, мы будем инвестировать в автоматизацию переобучения и повторного развертывания моделей частично или полностью в зависимости от варианта использования.

В заключение, новый способ MLOps основан на понимании того, что модель ML не похожа на выпуск программного приложения — нет развертывания, а затем перехода к следующему спринту. Это распространенное заблуждение, что модель будет продолжать работать правильно после развертывания. В эпоху больших данных требуются более быстрые итерации, поскольку информация неизбежно будет меняться, и модель, развернутая в производственной среде, сама по себе не сможет адаптироваться к этим изменениям. Чтобы модели машинного обучения оставались актуальными, инженеры машинного обучения и специалисты по данным должны работать вместе, чтобы выбрать наилучшую стратегию развертывания, установить границы производительности, отслеживать и устранять неполадки в текущей производительности моделей в производстве, а затем работать над постоянной оптимизацией своих моделей по мере поступления данных. или окружающая среда меняется. Доступны мощные платформы, предназначенные для взаимодействия с производственными группами, специалистами по данным и инженерами по машинному обучению. Даже для небольших команд, пытающихся быстро поддерживать свои модели. Wallaroo Community Edition позволяет вашим инженерам MLOps сотрудничать, а специалистам по данным — получать больше практического опыта в этом процессе.

Переосмысление MLOps как ценностно-ориентированного подхода к достижению последней мили машинного обучения.

Вопросы по теме