Что, почему и как в мониторинге моделей машинного обучения

От Нетми Де Сильва — Data Scientist

В области Наука о данных и машинное обучение (МО). Существуют варианты использования Data Science, которые необходимо обновлять или переобучать только в течение продолжительных периодов времени после производственного развертывания, например модели машинного обучения, используемые для обнаружения аномалий в клеточной структуре живых организмов. Однако большинство вариантов использования моделей машинного обучения тесно связаны с внешними факторами в реальном мире, которые требуют обновлений и переобучения модели.

Вот почему развертывание лучшей модели машинного обучения — это не конец проекта Data Science, так как выполнено только 60% работы. Остальное должно покрываться за счет непрерывного мониторинга производительности модели. Для этого должна быть установлена процедура. Это включает в себя обнаружение распада модели, устранение неполадок и предотвращение дальнейшего распространения ошибок. Это обеспечивает здоровое поведение модели и поддерживает бизнес-цели.

На рисунке выше показаны этапы жизненного цикла разработки машинного обучения. Давайте обсудим важность этапа мониторинга и обслуживания.

Почему нам нужно следить за производительностью модели после производства?

В реальном сценарии есть возможность столкнуться с изменениями в данных, используемых для логического вывода модели после ее развертывания. Изменения в прогностической модели машинного обучения трудно определить во время их возникновения, потому что проверка прогнозов проверяется на соответствие старой достоверности.

В подобных сценариях дрейф модели обнаруживается, как только становится доступной новая наземная правда, обычно по прошествии значительного периода времени. Таким образом, бизнес-решения уже принимаются на основе ложных прогнозов, которые могут оказаться недействительными и нереалистичными.

Дрейф модели

Дрейф модели, также известный как распад модели, происходит, когда предсказуемость развернутой модели со временем ухудшается из-за изменений в данных и связи между входными и выходными переменными. Это можно определить с помощью показателей производительности для оценки производительности модели, включая точность, частоту ложных срабатываний, среднюю частоту ошибок и многое другое. Если значение показателя производительности модели падает ниже согласованного порога, такую ситуацию можно назвать дрейфом модели.

Дрейф модели может быть результатом различных внутренних и внешних действий, таких как сезонные изменения, поведение и предпочтения потребителей, рыночный спрос, а также государственные правила и нормы.

Классический пример — внезапные изменения, такие как пандемия Covid19. Covid затронул многие развернутые модели машинного обучения, такие как модели обнаружения мошеннических транзакций, модели прогнозирования продаж/спроса и т. д. Это связано с тем, что покупательское поведение клиентов изменилось. А модели, обученные на данных до пандемии, не могут предсказывать или обнаруживать постпандемические изменения.

Например, многие компании, торгующие потребительскими товарами, заметили повышенный спрос на товары гигиены во время пандемии. И их модели прогнозирования спроса не могли предсказать внезапное увеличение объемов продаж до этого. Модели покупок также изменились, и многие клиенты перешли на онлайн-покупки. Чрезмерное использование кредитных и дебетовых карт привело к тому, что модели борьбы с мошенничеством определили эти транзакции как аномалии.

Требовалось собрать больше данных за период пандемии, и модель необходимо было переобучить, чтобы преодолеть эти дрейфы модели. Таким образом, поддержание согласованности распределения входных данных имеет важное значение. И каждая развернутая модель машинного обучения со временем нуждается в обслуживании и переобучении, потому что ни одна модель не вечна.

Дрейф модели можно разделить на два основных типа: дрейф данных и дрейф концепций в пространстве машинного обучения.

Дрейф данных

Достоверность развернутой модели становится сомнительной, когда меняется распределение входного набора данных. Дрейф данных возникает, когда свойства входных данных модели изменяются, пока модель находится в производственной среде. В такой ситуации модель нуждается в уточнении и не сможет делать точные прогнозы. Это связано с тем, что модель подвергается воздействию другого набора входных данных в производственной среде, полностью отличного от ее обучающих данных.

Производственные данные могут иметь новые шаблоны и ограничения, которые модель еще не видела ранее в период обучения. Кроме того, распределение и свойства данных, используемых для обучения модели, могут иметь характеристики, отличные от характеристик производственных данных (искаженные данные).

Другая возможная причина – динамические изменения внешней деловой/рыночной среды. Делаем обучающие данные неактуальными для текущего периода (устаревшие данные). Из-за этих изменений модели отклоняются от своей первоначальной цели решения проблем, что делает их прогнозы сомнительными. Точность значительно снизится, если дрейф данных повлияет на функции, оказывающие более существенное влияние на предсказание модели. Если соответствующий элемент не является сильно влияющим фактором, то Дрейф останется незаметным.

Перекос между обучением и обслуживанием, часто неправильно понимаемый как сценарий дрейфа данных, представляет собой разницу между производительностью модели машинного обучения во время обучения и обслуживания из-за изменений данных и обработки несоответствий.

Дрейф концепции

Дрейф концепции происходит, когда базовые отношения/паттерны между зависимой (Y, целевой) переменной и независимой (X, объясняющая/прогнозирующая) переменной изменяются из-за реальных ситуаций. В этих сценариях результат прогнозирования развернутой модели необходимо определять с точки зрения, отличной от предыдущей. Несмотря на то, что распределение данных во входных данных не изменяется, обычно в таких случаях следует пересмотреть логику или концепцию маркировки целевой переменной. На основе новых факторов среды развернутая модель не может повторно использовать ранее изученное сопоставление между входными данными.

Как вы обнаруживаете и преодолеваете дрейф модели?

Обнаружение дрейфа модели является сложной задачей. Некоторые дрейфы моделей можно выявить и устранить быстро, в то время как другие проявляются через много месяцев.

Ниже приведены некоторые методы, которые можно использовать на этапах построения модели и ее мониторинга для обнаружения и преодоления негативных последствий дрейфа модели:

Очень важно определить, является ли Дрейф внезапным, постепенным, постепенным или повторяющимся действием. Поэтому при обучении модели лучше учитывать хотя бы один цикл данных, чтобы избежать эффектов сезонности. Образцы могут быть взяты из того же или самого последнего периода, чтобы обучить модель, чтобы предотвратить зависимость от времени во время распределения данных. Кроме того, можно запланировать переобучение модели, чтобы снизить риск дрейфа модели в будущем.
Требуется поддержание точности модели с самого начала развертывания модели. При этом любая деградация должна наблюдаться, пока модель находится в производстве. Если техническое обслуживание проводится регулярно, любые изменения можно быстро выявить и отреагировать на них. Также можно внедрить систему контрольных предупреждений для наблюдения за изменениями в развернутой модели, когда она потребляет оперативные данные. И необходимые действия могут быть предприняты на основе обратной связи, полученной от системы оповещения.
Установите точное значение точки или диапазон значений, чтобы установить порог для показателей производительности. А также для push-уведомлений через систему оповещения, предупреждающую о возможном дрейфе модели. Если такого значения нет, требуется вмешательство на человеческом уровне экспертов предметной области и предметных экспертов, чтобы объявить величину дрейфа.
Понятие и данные Дрейф – это последствия статистических изменений входных данных. Метод статистического расстояния может сравнивать распределение данных одних и тех же входных объектов. Например, в течение двух разных периодов, чтобы проверить, происходят ли какие-либо изменения с течением времени. Такие тесты, как дивергенция Кульбака-Лейблера (KL-дивергенция), дивергенция Дженсена-Шеннона (JS-дивергенция), индекс стабильности населения и тест Колмогорова-Смирнова (KS), могут использоваться для количественной оценки расстояния между распределением данных реальных данных. в производственной среде и обучающий набор данных развернутой модели.

Реагируйте на Дрейф как можно скорее после его возникновения. Следует проводить своевременные и частые контрольные проверки для проверки производительности развернутой модели с использованием значений показателей производительности, визуализированных на панелях мониторинга с эталонными и пороговыми значениями. На основе обратной связи, генерируемой системой мониторинга, развернутая модель должна быть обновлена. Если есть необходимость сделать это, это можно использовать в качестве точки рассмотрения при построении следующей версии текущей модели.

По моему опыту, определение правильного набора KPI для мониторинга производительности модели после первоначального развертывания является сложной задачей. Обычно для принятия решения требуется несколько попыток. Ограниченный набор метрик, узких мест и лазеек можно выявить после нескольких итеративных циклов мониторинга.

Несколько методов, используемых для мониторинга производительности модели, включают наблюдение за производительностью, регистрацию и отслеживание аномалий, а также обнаружение распада модели. После чего требуется выполнение необходимых обработок для смягчения распада модели.

При мониторинге модели машинного обучения проекта Data Science следует учитывать два компонента по сравнению с обычным мониторингом программного обеспечения. В отличие от проектов разработки программного обеспечения, где успешное развертывание, вероятно, является концом проекта, в проектах Data Science необходимы пост-развертывание и мониторинг.

Очень важно определить проблемы, связанные с тем, что модель Data Science ведет себя не так, как ожидалось. Требуется расследование того, связана ли проблема с реализацией программного обеспечения или с проблемой производительности модели машинного обучения, требующей обновления модели. Выполнение надлежащих методов мониторинга производительности модели даже после развертывания обеспечит успех внедрения науки о данных.

Если в системе обнаружена проблема, можно сделать следующее:

Выполните анализ ошибок и найдите основную причину дрейфа.
Если есть изменение во входных данных, получите новые данные, ограничьте и обновите модель, чтобы сохранить требуемую производительность.
При переобучении модели данные должны быть тщательно изучены. Данные могут иметь дефекты, если данные собираются из производственной среды с использованием этих данных в качестве входных данных.
Внедрите процедуры управления жизненным циклом машинного обучения для автоматического мониторинга, такого как MLOps, для решения подобных проблем.

Платформы MLOps для мониторинга развернутой модели

Проекты Data Science включают в себя как построение модели машинного обучения, так и другие задачи разработки программной инфраструктуры. Однако весь этот процесс можно построить с нуля. Организации склонны внедрять автоматизированные платформы машинного обучения из-за их многочисленных преимуществ. Платформы MLOps можно использовать в качестве продуктивного подхода к разработке сквозного пайплайна проектов Data Science. Это сэкономит много усилий и времени разработчиков.

Ниже приведены некоторые из тех платформ MLOps, которые можно использовать для реализации практик MLOps в организации:

Заключение

Этап мониторинга и обслуживания модели машинного обучения после развертывания включает выявление деградации модели. Что обеспечивает отслеживание поведения модели и обеспечение поддержания необходимого уровня производительности. Платформы MLOps можно использовать для мониторинга моделей в производственной среде. И сообщайте нам о любых изменениях, изменяя системы или отслеживая информационные панели. Затем инженеры по машинному обучению могут предпринять действия, необходимые для обеспечения согласованности продуктов Машинного обучения.