AutoML и будущее науки о данных

Как AutoML будет развивать ландшафт прикладного машинного обучения

Если вы читаете это, вы, вероятно, уже знаете, что такое AutoML или автоматизированное машинное обучение. Это инструмент, созданный Google для автоматизации всего конвейера машинного обучения, а Microsoft и Amazon также имеют свои собственные реализации в облаке.

Автоматизированное машинное обучение предназначено для проведения широкого и глубокого поиска по обширному ландшафту моделей и гиперпараметров, чтобы найти лучшую модель и разработку функций для решения проблемы. В дополнение к автоматизации значительной части текущих проектов машинного обучения, также относительно легко начать работу. В зависимости от технической инфраструктуры вашей организации тем, кто имеет опыт работы с программным обеспечением или облачными технологиями, может быть довольно просто запускать свои собственные модели в масштабе.

Из-за этого, а также из-за множества инструментов с низким кодом / без кода, которые штурмом захватили отрасль, мы видим множество статей, в которых утверждается, что AutoML заменит специалистов по данным. Я в некоторой степени не согласен, и в этой истории я расскажу, что, по моему мнению, произойдет с дальнейшим внедрением AutoML.

Чем занимается специалист по данным?

Это может иметь приличное количество вариаций в зависимости от компании и области, но в целом: специалисты по данным работают с бизнес-лидерами, чтобы экспериментировать и создавать модели машинного обучения, чтобы предоставлять статистические данные и принимать важные бизнес-решения. Это часто означает, что эта роль является своего рода высокотехническим консультантом, внутренним и/или внешним.

Весь жизненный цикл этих проектов начинается с того, что инженеры данных курируют и проверяют данные из множества систем в подходящем формате в базах данных, озерах данных, хранилищах данных и т. д. Затем, когда возникает потребность бизнеса, специалист по данным отвечает за понимание проблема под рукой и какие данные могут быть решением. Это требует приличного количества обменов с инженерами данных и бизнес-лидерами, чтобы найти правильные источники для извлечения данных, ограничения качества и многое другое.

Затем специалисты по данным обычно строят модель Proof of Concept, которая больше ориентирована на эксперименты, чем на масштабируемость. Этот этап PoC очень итеративный, беспорядочный и исследовательский. Этот этап предполагает более тесное сотрудничество с аналитиками данных. Результаты этого этапа приводят к выявлению первоначальных сильных функций, зависимостей данных, работающих моделей, оптимальных гиперпараметров, ограничений модели/проекта и многого другого. Data Scientist должен иметь в своем репертуаре множество статистических и алгоритмических методов для решения поставленной задачи. Как только мы достигнем приличного уровня уверенности в PoC, мы рефакторим код, написанный до сих пор, чтобы оптимизировать производительность, чтобы мы могли запустить модель в производство.

Этап развертывания предполагает партнерство с инженерами по машинному обучению, чтобы помочь создать модель и настроить адекватный мониторинг модели. Работа над проектом после развертывания обычно представляет собой сотрудничество между специалистом по данным и инженером по машинному обучению. Наконец, специалисты по данным будут представлять презентации, которые кратко и четко объясняют модель, результаты модели и то, как она связана с бизнесом.

Это был невероятно редукционистский взгляд на каждую функцию, которая имеет свою глубину и проблемы, но управление и владение всем этим жизненным циклом — это прикладное машинное обучение. Кроме того, проекты данных обычно нелинейны — они итеративны. На каждом этапе обычно обнаруживается что-то, что требует повторного посещения предыдущего этапа, поэтому участие всех ролей с самого начала очень помогает. Наконец, в зависимости от размера и ресурсов, доступных для организации, вы можете легко иметь одного человека, играющего несколько ролей. Наиболее распространенная комбинация ролей, которую я видел, это

Специалист по данным/инженер по машинному обучению: Обычно производительность выше за счет создания масштабируемых систем машинного обучения, которые работают в областях, выходящих далеко за рамки блокнота Jupyter. По сути, что имеют в виду компании, когда запрашивают «специалиста по данным».
Data Scientist / Data Analyst: обычно лучше в скорости и экспериментировании. Обычно заканчивается функциями ведущего аналитика или продуктового DS.
Ученый по данным / аналитик данных / инженер по машинному обучению: обычно встречается у старших, ведущих и директоров. Мастера многих профессий.

Что делает автоматизированное машинное обучение (AutoML)?

AutoML автоматизирует весь рабочий процесс машинного обучения.

Это предпочтительно делать внутри облачных инфраструктур, таких как Google Cloud Platform, Azure Machine Learning или Amazon SageMaker. AutoML работает, чтобы заменить все ручные части настройки и экспериментов с моделями, которые сегодня выполняют специалисты по данным, ища оптимальные гиперпараметры и модели для задачи моделирования. Он также обрабатывает итеративную часть, поскольку его основная функция заключается в оптимизации показателей оценки, чтобы они продолжали повторяться до тех пор, пока не будут достигнуты наилучшие результаты (или не будут достигнуты критерии завершения).

После обучения его можно легко развернуть в производственном экземпляре в облаке, где настроены проверки мониторинга модели для проверки, например, кривых Precision-Recall, важности функций и т. д.

Базовые алгоритмы, которые изучает AutoML, — это в первую очередь то, что уже изучено специалистами по обработке и анализу данных/MLE, но обычно мало прозрачности того, как эти облачные предложения действительно выполняют AutoML. При этом вы, вероятно, увидите, что современные модели и ансамблевые модели широко используются здесь и часто с производительностью, сравнимой с моделями ручной работы.

Включение визуализации данных и разработки функций в AutoML также очень полезно. Системы способны идентифицировать критические пересечения функций, соответствующие преобразования и ключевые визуализации на этом пути.

Наконец, эти облачные платформы также имеют специальные продукты глубокого обучения с AutoML для таких вариантов использования, как Vision (например, обнаружение объектов), NLP (например, OCR), временные ряды (например, прогнозирование) и многое другое.

Кому действительно помогает AutoML?

Очень легко прочитать вышеизложенное и сказать: «Ну, тогда Data Scientist явно бесполезен». Я бы утверждал прямо противоположное. Движение low-code/no-code было действительно замечательным свидетелем, особенно с учетом того, что облачные платформы получают широкое распространение. Высокотехническая работа становится простым перетаскиванием и более легкими барьерами входа для новичков. На самом деле, это становится настолько простым, что людям кажется, что любой может выполнить эту работу, не обсуждая качество и уровень понимания проделанной работы. Недостатком инструментов low-code/no-code является то, что они позволяют легче застрять на стадии «слишком самоуверенный, недостаточно компетентный» в эффекте Даннинга-Крюгера.

Когда мы сильно абстрагируемся от высокотехнической и сложной работы, мы снижаем входной барьер, но также облегчаем людям возможность застрять на начальном уровне. Когда вы можете запускать AutoML с неограниченными облачными вычислениями, зачем вообще узнавать, какие модели лучше всего подходят для поставленной задачи, почему определенные модели не будут работать в вашем случае использования в бизнесе, почему показатели оценки должны быть приоритетными в зависимости от вашей проблемы и многое другое. Ответы на эти вопросы начинают проливать свет на истинных победителей AutoML, но позвольте мне сначала провести аналогичное сравнение.

Tableau — один из самых популярных продуктов для анализа данных на сегодняшний день. Я начал свою карьеру в нем, получил сертификат и являюсь большим поклонником этого инструмента. Это был удивительный продукт для начала, потому что он превратил то, что раньше было очень технически сложным и отнимало много времени, в простое перетаскивание. Я мог легко создавать гистограммы, круговые диаграммы, сложные информационные панели, псевдовеб-страницы и многое другое. Меня, как новичка, это невероятно вдохновило, и я благодарен за это. Но, если быть честным, многие из моих первоначальных дашбордов были действительно отстойными. Они не побуждали к действиям, проницательным мыслям и были более «забавными для просмотра», чем истории, призывающие к действию. Тем не менее, мне было легко заявить о своем опыте, потому что я мог оценить относительную простоту использования инструмента. По мере того, как я продвигался по карьерной лестнице и в своей магистерской программе, я углублялся в изучение теории цвета, ограничений зрения, целенаправленного дизайна и того, как создавать визуализацию данных с помощью кода. Это более глубокое понимание помогло мне преодолеть пропасть новичка, но мне было бы очень легко продолжать маскироваться под эксперта. И даже сейчас я видел множество дашбордов Tableau, которые люди считают эффективными, потому что они «видят дизайн», когда они совсем не эффективны.

Tableau упростила задачу стать аналитиком данных и только что доказала, что большинство людей в этом не разбираются. Это не оскорбление, это осознание того, что хороший и качественный анализ данных — это не то, что можно свести к инструменту перетаскивания. Чтобы научиться поступать правильно, требуется много времени и усилий, а не только умение создавать гистограммы одним щелчком мыши.

AutoML помогает специалистам по данным больше, чем кто-либо другой. Всякий раз, когда я слышу, что вы можете легко поручить эту работу MBA и другим неподготовленным специалистам по машинному обучению, я думаю, что это довольно комично. Абстрагирование от технических сложностей упрощает работу новичков, но основной аудиторией всегда являются эксперты. AutoML автоматизирует самую утомительную часть работы, но эта работа гораздо шире и глубже, чем просто оптимизация ансамблевой модели для обеспечения точности.

Взгляд в совместное будущее

Любой высококвалифицированный специалист по данным, которого я знаю, совсем не интересуется AutoML; на самом деле, они в восторге от этого. Это потому, что они не могут ждать, пока самая утомительная и итеративная часть их PoC-работы будет автоматизирована, и потому что они знают, что их истинная ценность не заключается в выполнении этой утомительной работы. AutoML не может обрабатывать интерпретацию моделей (нет, печать показателей оценки не является интерпретацией) для бизнес-лидеров с рекомендациями о том, какие действия предпринять, пониманием того, какие новые функции, отсутствующие в наборе данных, могут быть значительными, и как их получить, как их интегрировать. в более крупную систему моделей или программного обеспечения, созданную на предприятии, и многое другое.

Я уверен, что есть случаи, когда неподготовленные специалисты по машинному обучению использовали AutoML, запускали его в производство, и это приносило бизнесу миллионные выгоды. Успех этого не связан с AutoML, это связано с культурой данных и инфраструктурой вашей компании. Сколько я читал историй, рассказывающих о том, как Google «убивает Data Scientist» с помощью AutoML, почти не упоминая о том, что они используют его в Google. В большинстве компаний вам, вероятно, понадобится централизованный руководящий орган, который может отслеживать, какие модели создаются, почему и как они работают, если вы планируете вскочить на поезд «гражданского специалиста по данным».

При этом AutoML убьет определенный тип функций, а именно «псевдо-ученых данных». Это специалисты по данным или MLE, которые действительно застряли на этой стадии «слишком самоуверенный, некомпетентный» и отказываются учиться, расти и развиваться после нее. AutoML значительно уменьшит их ценностное предложение и вынудит их использовать функции Analyst или MLE. Citizen Data Scientist — это противопоставление, но это может быть хорошо, пока ожидания управляются; вы не ожидаете качественных результатов от Citizen Doctors или Citizen Lawyers, и вы не должны здесь.

Хотя я думаю, что многие из этих статей немного сенсационны, я верю, что переопределение ролей и обязанностей произойдет, особенно благодаря появлению этих инструментов. Я не утверждаю, что роль Data Scientist или MLE останется полностью нетронутой, но их опыт на самом деле будет нужен гораздо больше и цениться гораздо больше, чем мы делаем сегодня. Популяризация таких инструментов, как AutoML, является признаком того, что этот навык единодушно необходим в пиках, и люди, которые могут использовать его на высоком уровне в рамках своего набора навыков, выиграют следующее десятилетие прикладного машинного обучения.