Снижение потребности в коде и предоставление данных более широкой аудитории не отменяет потребность в человеческой интуиции при исследовании данных.

Давайте начнем с подтверждения мощи инструментов AutoML. Любой пользователь, независимо от технических возможностей, теперь может настроить создание модели за несколько минут, в то время как ранее экспертам по данным требовались сотни строк Python. AutoML ускоряет процесс поэтапного проектирования функций, тестирования множества различных алгоритмов, настройки параметров и, в конечном итоге, определения точной модели.

Следовательно, он стал решающей опорой для демократизации науки о данных, поскольку абстрагирует кодирование и вызовы алгоритмических функций от выгоды производственной модели. В Einblick мы воочию наблюдали, как наши инструменты AutoML позволили нетехническим аналитикам и руководителям операций начать замену «интуиции» точными моделями.

Но для нас AutoML представляет собой усовершенствованный инструментарий для достижения цели ускорения построения моделей и демократизации науки о данных. Однако это не волшебная палочка, которой можно взмахнуть, чтобы мгновенно создать науку о данных. Более реалистичным аналогом может быть то, что инструменты AutoML - это электрические консервные ножи. Они свободны от рук и позволяют достигать целей быстрее и чище, чем ручное управление.

Таким образом, важным напоминанием руководству организации является то, что не следует чрезмерно инвестировать только в технические решения AutoML, а в большей степени следует вкладывать средства как в людей, так и в процессы.

1. Знание предметной области улучшает вводимые данные

Базовые инструменты разработки функций и очистки данных встроены в большинство инструментов AI / ML. Ведущие платформы AutoML (кратко и бессовестно подключив мой собственный продукт, Einblick здесь ) будут включать аналогичный набор возможных преобразований, включая быстрое кодирование (категориальные переменные до 1/0), вменение, масштабирование, соотношения, извлечение текстовых функций НЛП. Однако эти подходы представляют собой подход смотри на что-нибудь.

Однако знания предметной области, основанные на человеке, имеют несколько сравнительных преимуществ, которые дополняют автоматическое проектирование функций, в том числе следующие:

  • Обнаружение реальных мотивированных изменений в шаблоне: человек может распознать сдвиг в наборах данных, который представляет собой произошедшее событие, имеющее название. Примеры включают в себя то, что организация выступила с новой инициативой, произошел стратегический сдвиг, произошло стихийное бедствие, финансовый кризис и т.д. В то время как человеческая интуиция полагается на обширное хранилище дополнительных знаний для интерпретации данных.
  • Идентификация выбросов на основе ожиданий. Алгоритм AutoML может определять переменные, которые находятся за пределами трех стандартных отклонений, и устранять их. Однако, как и в предыдущем случае, понимание законности ценностей - задача человека. Возьмем розничный банк: кредитный рейтинг 900 кажется приемлемым, но он не находится в пределах возможного диапазона 300–850 для стандартной оценки. В отличие от этого, текущий счет на миллион долларов встречается редко и намного выше среднего, но мы сразу понимаем, что это возможно. Знание предметной области - это то, что позволяет аналитику классифицировать, являются ли отклоняющиеся значения законными.
  • Интеллектуальное и интерпретируемое преобразование данных. Классическим примером является взаимосвязь между весом и сердечными приступами. Хотя [вес] положительно коррелирует с [сердечными приступами], лучшим предсказателем может быть [вес] / [рост ] поскольку кто-то очень высокий и тяжелый, вероятно, все еще здоров. Еще более обширный опыт в предметной области может сказать вам, что возведение в квадрат знаменателя дает индекс массы тела, который в таком случае является широко используемым показателем.

2. Инструменты объяснения должны вызывать обсуждение, а затем итерацию

Модели полезны только тогда, когда они реализованы. Взаимодействие достигается за счет возможности четко сообщить, что делает модель, ответить на вопросы и разрешить любые разногласия по поводу факторов ввода и последствий для результатов.

В AutoML есть ряд доступных функций объяснения модели, от ранжирования важности переменных и предоставления пользователям возможности просматривать данные до графиков частичной зависимости и визуализации независимых условных ожиданий. Но это инструменты для специалиста по данным. Они не способствуют распространению информации и не объясняют модель широкому кругу заинтересованных сторон, имеющих отношение к анализу. Команды и инструменты должны выходить за рамки встроенных пакетов, чтобы способствовать лучшему пониманию заинтересованных сторон и стимулировать итерацию:

  • Описательная визуализация результатов прогнозирования: полезные предварительно упакованные выходные данные, которые представляют лучшие инструменты объяснимости моделей, требуют либо веры в процесс без понимания, либо потенциально слишком большого количества предварительных знаний в области науки о данных. Вместо этого вместо модели следует проводить практическую описательную аналитику. Имеют ли значения смысл, существуют ли сегменты так, как я ожидал, есть ли какие-то необъяснимые закономерности, когда я визуализирую прогнозы на основе ключевых факторов и т. Д.? Переменная, определенная как важная, может быть подтверждена с помощью быстрой нормализованной гистограммы целевой переменной отклика, выделенной драйвером.
  • Быстро оценивайте влияние изменений. Модели нужно будет запускать снова, снова и снова. Основываясь на результатах, пользователи должны иметь возможность быстро вернуться к задачам потока данных, чтобы пополнить набор данных, перейти к описательным визуальным элементам для проверки гипотезы или просто повторно запустить модель без неверной переменной. Инструменты AutoML - хороший способ найти хорошие модели, но это не значит, что их достаточно, чтобы решить проблему одним выстрелом.

Таким образом, не сосредотачивайтесь только на автоматической модели и игнорируйте необходимость взаимодействия человека с данными после создания модели. Многие рабочие процессы AutoML неявно заявляют: «доверяйте нам». Если статистика по модели выглядит хорошо, и она была получена с помощью умного инструмента, то, безусловно, имеет смысл реализовать! Демократизация науки о данных не означает, что пользователи должны отказываться от создания хорошо понятных и объяснимых моделей.

Первоначально опубликовано на Einblick: https://einblick.ai/automl-not-enough-citizen-data-science/

Попробуйте новый, более динамичный способ интеграции AutoML в рабочий процесс обработки данных https://einblick.ai/try-einblick/