Часть 4 из серии autoML - красота в дизайне

Я отклоняюсь от предыдущих статей этой серии. Я собираюсь рассмотреть два инструмента, которые на голову выше остальных. Дизайн и красивая визуализация обходятся недешево. Это не значит, что мы не можем ими восхищаться и использовать их как планку, к которой мы стремимся. Начну с DataRobot. Это корпоративный инструмент, к которому вы можете получить доступ на работе или в школе.

Почему DataRobot?

У меня есть опыт использования этого инструмента, и я люблю его за бизнес-кейсы, в которых я его использую. Мой бизнес-кейс - иметь простой интерфейс, позволяющий специалисту, не занимающемуся данными, запускать и развертывать модели в автоматическом режиме. DataRobot регулярно добавляет новые функции, каждая из которых прекрасно сочетается с существующим пользовательским интерфейсом. Я мог бы говорить о преимуществах, но я буду контролировать свою внутреннюю фан-девушку.

Чтобы сохранить стабильность с другими инструментами, я сосредоточусь на самых основных задачах по запуску простого файла .csv с помощью autoML без какого-либо ручного вмешательства или настройки гиперпараметров.

Настройка и стоимость

По сути, DataRobot выходит за рамки бюджета отдельного специалиста по данным. Внедрение и стоимость, безусловно, зависят от бизнеса. AWS Marketplace предлагает годовую подписку за 98 000 долларов США. Карманная мелочь, я уверена. Но если вы используете AWS govCloud, это 9,33 доллара в час (варьируется). Интересный.

Данные

Чтобы сохранить паритет между инструментами в этой серии, я буду придерживаться обучающего файла Kaggle. Противоречиво, мой дорогой Ватсон. Выявление противоречий и следствий в многоязычном тексте с помощью TPU . В этом конкурсе для начинающих мы классифицируем пары предложений (состоящих из предпосылки и гипотезы) на три категории: следствие, противоречие и нейтральность.

6 столбцов x 13k + строк - документация Стэнфордского НЛП

  • id
  • посылка
  • гипотеза
  • lang_abv
  • язык
  • метка

Загрузка данных

Вы создаете проект, загружая набор данных. С этого интерфейса вы начнете.

После загрузки данных есть возможность изменить типы данных или удалить объекты. Есть некоторые данные о распределении данных. Бонус в том, что есть предупреждения, если может произойти утечка данных. При обнаружении утечки данных DataRobot удаляет эту функцию из окончательного набора обучающих данных.

Обучение вашей модели

Как только вы выберете цель, вы нажмете большую кнопку «Пуск» с режимом моделирования, установленным на «Автопилот». Когда вы это сделаете, вы увидите прогресс справа. По мере обучения моделей они становятся доступными в таблице лидеров по мере завершения.

Одним из преимуществ доступа к ранним результатам модели является то, что вы можете просматривать их на предмет серьезных проблем. Много раз некоторые проблемы с данными становились очевидными с помощью Insights, и я мог остановить процесс и попробовать снова. Этот быстрый и легкий обзор помогает ускорить итерацию.

Оцените результаты обучения

Таблица лидеров начинает заполняться завершенными моделями. В раскрывающемся списке можно выбрать несколько допустимых показателей. Есть также несколько полезных тегов, чтобы вы знали, ПОЧЕМУ лидеры оказались на вершине.

Вы можете сравнить модели друг с другом.

Одна вкладка, которую я часто использую, - это скорость против точности. Бывают случаи, когда вы забиваете миллионы рекордов, когда скорость важнее точности, если падение точности незначительно.

Вкладка Insights удобна. Вы можете быстро увидеть, появляется ли одна из ваших функций. Правильно это или нет - зависит от вашего опыта в бизнесе. На этой вкладке я обнаружил проблемы с данными на ранних этапах обучения модели autoML. Если я вижу что-то, что кажется неправильным, я могу выполнить итерацию быстрее, чем ждать завершения всего процесса.

Объясняемость модели DataRobot - лучший из инструментов, которые я рассмотрел до сих пор. Каждому прогнозу присваивается, какие особенности повлияли на окончательный результат, что указывает не только на силу, но и на направление.

Не следует недооценивать, что документация может отнимать у вас время. Для этого простого набора данных DataRobot генерирует документ объемом более 7000 слов со всеми диаграммами, параметрами модели и деталями модели претендента. Эта документация - уникальная функция, которую я не нашел ни в каких других инструментах, хотя я просил об этом, когда меня просили. Все делается одним щелчком мыши.

Выводы

Чтобы свободно сравнивать результаты между инструментами, я перенастроил набор данных в режиме классификации. Показатели чуть выше, чем у Azure. По большей части результаты модели аналогичны.

Для моего бизнес-кейса это пока вершина кучи. Сопоставление изображений или временных рядов может дать разные результаты. Это было бы проблемой для другой серии.

Простота использования, визуализация, доступ к деталям модели претендента, объяснимость модели и автоматизированная документация выделяются среди других. Вы, конечно, дорого за это платите.

Далее я покажу вам H2O.ai AI без водителя. На мой взгляд, это самое близкое сравнение с DataRobot на данный момент. Они приложили немало усилий, чтобы привлечь к проекту лучших дизайнеров визуализации данных, поэтому я ожидаю многого.

Если вы пропустили одну из статей этой серии, я разместил их ниже.