AutoML: изучение современного состояния и обзор 5 фреймворков с открытым исходным кодом на Python

Машинное обучение

AutoML: изучение современного состояния и обзор 5 фреймворков с открытым исходным кодом на Python

Автоматизированное машинное обучение, также известное как AutoML, представляет собой область исследований для автоматизации разработки моделей машинного обучения (ML). Разработка модели машинного обучения состоит из тщательного выбора, оптимизации и оценки нескольких этапов конвейера машинного обучения. Некоторые из этих шагов включают предварительную обработку данных и функций, выбор модели и настройку гиперпараметров.

В этой статье мы кратко укажем на некоторые проблемы, связанные с разработкой конвейера машинного обучения. Мы объясним, что такое автоматизированное машинное обучение и почему оно актуально. Затем мы рассмотрим и сравним 5 фреймворков AutoML с открытым исходным кодом для Python, которые мы исследовали.

Содержание

Разработка пайплайна машинного обучения
Автоматизированное машинное обучение
AutoML-фреймворки с открытым исходным кодом
Сравнение фреймворков AutoML
"Краткое содержание"

1. Разработка конвейера машинного обучения

Машинное обучение позволяет нам решать проблемы с использованием данных. Он обладает большим потенциалом, помогая решать целый ряд задач в различных областях. Машинное обучение может дать осмысленное представление о данных, помочь в принятии решений или использоваться для оптимизации или рационализации определенных задач и процессов. Это может принести пользу компании за счет автоматизации операций, стремления к устойчивости или сокращения расходов и использования ресурсов.

Однако разработка приложения на основе машинного обучения занимает много времени и требует определенного уровня знаний в области машинного обучения. Типичный рабочий процесс разработки модели/конвейера машинного обучения состоит из нескольких шагов. Каждый шаг включает в себя выбор правильного метода и его оптимизацию.

Каждый шаг конвейера основан на предыдущих шагах и влияет на последующие шаги, что делает разработку машинного обучения довольно сложной и непосильной в зависимости от человека.

Некоторые из этих шагов обрабатывают отсутствующие значения, масштабируют данные, создают новые объекты или выбирают объекты. Двумя важными шагами являются выбор модели и оптимизация гиперпараметров (HPO). Алгоритмы машинного обучения, которые строят модели ML, различаются по своей природе с различными преимуществами и недостатками. Гиперпараметры определяют поведение и сложность модели. Выбор правильной модели с оптимальным гиперпараметром варьируется от сценария к сценарию.

Так как же нам найти оптимальный набор шагов/методов и моделей?

Обычно подход к общей стратегии поиска оптимальной комбинации заключается в многократном испытании нескольких из них, оценке их эффективности и выборе наилучшей комбинации, см. рис. 1. Это повторяющийся процесс, который также можно автоматизировать и абстрагировать от пользователь.

Здесь на помощь приходит AutoML.

2. Автоматизированное машинное обучение

Что такое AutoML?
Нужен ли нам AutoML?
Заменит ли AutoML специалистов по данным?
Для кого предназначен AutoML?
АвтоML-решения
Как работает AutoML?
Тренды AutoML
Кейсы использования AutoML

2.1 Что такое AutoML?

Итак, каково определение AutoML? По данным AutoML: методы, системы, проблемы [1];

AutoML стремится предоставить эффективные готовые системы обучения, чтобы освободить как экспертов, так и неспециалистов от утомительных и трудоемких задач по выбору правильного алгоритма для имеющегося набора данных, а также правильного метода предварительной обработки и различные гиперпараметры всех задействованных компонентов.

— AutoML: методы, системы, задачи, стр. 136.

Сделать машинное обучение доступным для неспециалистов и автоматизировать утомительную часть разработки, по-видимому, является основной целью большинства решений AutoML. Они достигают этого, скрывая итеративный и сложный аспект разработки машинного обучения за простым интерфейсом. Затем люди с небольшим опытом ML могут самостоятельно обучать, оптимизировать и использовать модель ML. Для более опытных практиков AutoML позволяет быстро создавать модели машинного обучения с хорошими результатами. Это высвобождает драгоценное время, которое можно потратить на более важные задачи, а также сокращает время и затраты на разработку приложений на основе машинного обучения.

2.2 Нужен ли нам AutoML?

Количество данных, генерируемых каждый день, похоже, в ближайшее время не уменьшится. Спрос на машинное обучение опережает предложение и требует умных и масштабируемых решений для эффективной обработки больших объемов данных.

Многие компании могут получить огромную выгоду от использования машинного обучения со своими данными. Однако машинное обучение пока недоступно для многих предприятий. Основными причинами этого являются затраты и опыт, необходимые для разработки модели машинного обучения сегодня.

AutoML обеспечивает быструю и доступную разработку приложений на основе машинного обучения. Он предоставляет частным лицам и компаниям возможность использовать преимущества машинного обучения, не полагаясь на опыт машинного обучения. AutoML также повышает эффективность инженеров машинного обучения и специалистов по данным, позволяя им справляться с большими рабочими нагрузками и переключать внимание на более деликатные вопросы.

2.3 Заменит ли AutoML специалистов по данным?

AutoML не заменит специалистов по данным или инженеров машинного обучения. AutoML — это еще один удобный инструмент, который они могут использовать в своей работе. Например, инфраструктура AutoML TPOT идентифицирует себя как помощников специалистов по данным, в то время как PyCaret вдохновлен растущей ролью гражданских специалистов по данным. AutoML может создавать модели ML, которые превосходят новичков, но пока не могут превзойти экспертов [3].

2.4 Для кого предназначен AutoML?

AutoML предназначен для неспециалистов, начинающих и продвинутых/экспертных специалистов по машинному обучению. Для неспециалистов AutoML позволяет разрабатывать машинное обучение без какого-либо опыта или знаний в области машинного обучения. Для начинающих практиков это гарантирует высокую производительность моделей машинного обучения, способствуя дальнейшему росту и развитию навыков работы с данными. Наконец, AutoML упрощает разработку машинного обучения для экспертов, освобождая драгоценное время для более важных задач.

2.5 AutoML-решения

Инструменты AutoML могут отображаться как облачные службы, такие как Google Cloud AutoML, Microsoft Azure Automated ML и Amazon SageMaker Autopilot, или как платформы с открытым исходным кодом, такие как Auto-Sklearn и TPOT. За последние годы было разработано множество AutoML-решений, некоторые из них показаны на рис. 2. Репозиторий awesome-automl-papers от hibayesian представляет самый полный список AutoML, который у нас есть. наткнуться.

Облачные сервисы предлагают более полное сквозное решение, требующее меньше навыков кодирования или вообще не требующих навыков. Они занимаются как оценкой моделей, так и управлением вычислительными ресурсами. Однако это происходит за счет конфигурируемости и прозрачности моделей машинного обучения, а также платного решения.

Фреймворки с открытым исходным кодом бесплатны для использования и обеспечивают большую прозрачность и гибкость моделей машинного обучения. Они также являются более «передовыми», чем облачные сервисы, и обычно постоянно развиваются, добавляя новые функции и документацию. Однако для использования AutoML с открытым исходным кодом требуется определенный уровень навыков кодирования и реализации.

2.6 Как работает AutoML?

AutoML предоставляет пользователям простой интерфейс для создания эффективных конвейеров машинного обучения. Большинство платформ с открытым исходным кодом следуют классическому дизайну API Scikit-Learn (см. рис. 3). Платформы AutoML обычно реализуются всего в четырех строках кода. Фреймворки часто предоставляют параметр, в котором можно настроить «бюджет времени», что является довольно удобной и предсказуемой функцией.

Большинство AutoML основаны на структурированных данных, данных, хранящихся в строках и столбцах в виде электронной таблицы или таблицы базы данных. Однако есть некоторые фреймворки, которые также предоставляют модули для обработки текста и изображений (AutoKeras и AutoGluon). В основном AutoML предназначены для решения задач контролируемого обучения, таких как регрессия и классификация.

AutoML используют разные стратегии для оптимизации конвейера машинного обучения. Некоторые из них имеют предопределенные шаги предварительной обработки, модели и гиперпараметры, на которые они полагаются, в то время как другие могут исследовать произвольно большие конвейеры и широкий выбор методов.

AutoML обычно имеют более «интеллектуальную» стратегию поиска оптимального конвейера, моделей и гиперпараметров, чем традиционные методы, такие как поиск по сетке и случайный поиск. Для некоторых фреймворков можно определить гиперпараметры, пользовательские модели и метрики оценки через простой интерфейс. Другие не поддерживают настраиваемость или делают ее очень громоздкой для реализации.

Важным шагом в разработке модели машинного обучения является правильное разделение данных. Это необходимо, чтобы уменьшить вероятность переоснащения, чтобы ваша модель хорошо обобщала невидимые данные. Традиционными стратегиями разделения данных являются удержание и перекрестная проверка. По крайней мере один из них обычно реализуется в среде AutoML, которую мы исследовали до сих пор.

Большинство AutoML используют методы ансамбля, используя большую часть модели, которую они обучили, объединяя их в одну модель. Это повышает производительность, но ставит под угрозу интерпретируемость моделей и время вывода [2]. Шаг ансамбля обычно можно пропустить, отключив его с помощью параметра модели, что приводит к конвейеру только с одной моделью.

К сожалению, многие платформы AutoML в значительной степени полагаются на собственную инфраструктуру кода. Обычно это мешает полностью прозрачному конвейеру и затрудняет воспроизведение аналогичного конвейера без фреймворка. Это также затрудняет декомпозицию и использование частей конвейера в другом месте, а также дальнейшее развитие конвейера.

После того, как AutoML создали модель ML, они могут предоставить некоторые функции для взаимодействия модели. Некоторые генерируют подробные отчеты о моделях и данных, в то время как другие предлагают только функции для печати важности пермутированных функций и списков лидеров обученных моделей.

2.7 Тенденции AutoML

В последние годы AutoML привлекает все большее внимание как научных кругов, так и представителей отрасли. Многие решения публикуются с открытым исходным кодом, что делает их широко доступными и обеспечивает непрерывную разработку сообществом. Даже крупные технологические компании разрабатывают платформы AutoML с открытым исходным кодом, такие как FLAML от Microsoft, Lale от IBM и Ludwig от Uber.

Одним из основных драйверов автоматизированного машинного обучения в научных кругах и в целом является AutoML.org. Они разработали Auto-Weak (первый известный AutoML), Auto-Sklearn (о котором мы расскажем позже) и Auto-PyTorch (автоматическое глубокое обучение с использованием PyTorch). Они также принимали активное участие в организации 1-й Международной конференции по автоматизированному машинному обучению, которая состоялась в июле 2022 года.

Согласно [3], AutoML привлек большое внимание в 2018 году из-за публичности коммерческих решений AutoML. Одновременно исследования привели к множеству улучшений производительности для AutoML. Ниже мы представляем график, отображающий тенденции исследований в области автоматизированного машинного обучения за последние годы (см. рис. 4). Данные получены из результатов поиска из Scopus в декабре 2022 года.

В 2020 году Microsoft предсказывала, что «в следующие 10 лет сотни тысяч небольших команд создадут миллионы приложений на основе машинного обучения» [4]. Потребность в эффективных и доступных инструментах для использования машинного обучения, по-видимому, является основной причиной прогресса, достигнутого в AutoML.

Объем рынка AutoML оценивался в 346 миллионов долларов в 2020 году и, по прогнозам, составит 14 830 миллионов долларов в 2030 году, сообщает P&S Intelligence. Основными причинами этого являются «растущий спрос на эффективные решения для обнаружения мошенничества, растущая потребность в персонализированных рекомендациях по продуктам и растущая важность прогнозной оценки потенциальных клиентов».

2.8 Варианты использования AutoML

AutoML можно легко применять в различных областях. H2O.ai представляет список полей и примеров для AutoML. Среди них финансы, правительство, здравоохранение, производство и маркетинг, и это лишь некоторые из них. Более распространенными вариантами использования AutoML являются Производство (быстрое создание приложений на основе машинного обучения), Прототипирование (низкий риск и дешевая разработка прототипов) и Исследования (легкая разработка моделей для исследования) [5].

AutoML уже применялся во многих различных областях исследований. Ниже мы представляем цифру из 20 областей (за исключением «Информатики»), к которым был применен AutoML (рис. 5), на основе тех же результатов поиска из Scopus, что и выше.

3. Платформы AutoML с открытым исходным кодом

Авто-Склерн
ТПОТ
АвтоКерас
АвтоГлюон
МЛЬЯР

3.1 Авто-Sklearn

Auto-Sklearn создает конвейер машинного обучения, используя байесовскую оптимизацию и метаобучение. Алгоритм выполняет поиск в полуфиксированном структурированном конвейере, состоящем из предварительной обработки данных, предварительной обработки признаков и модели (см. рис. 6). Auto-Sklearn создает пайплайны, используя широкий выбор компонентов Scikit-learn. Затем выбранные конвейеры объединяются в одну модель для повышения производительности.

Байесовская оптимизация соответствует вероятностной модели, которая отражает взаимосвязь между гиперпараметрами и показателем производительности (см. рис. 7). Затем алгоритм использует эту модель для многократного предложения новых гиперпараметров и их оценки.

Байесовская оптимизация начинается медленно, исследуя множество конфигураций, которые вряд ли обеспечат хорошие решения. Auto-Sklearn преодолевает это, «запуская» байесовскую оптимизацию с помощью метаобучения. Мета-обучение выбирает набор экземпляров, которые хорошо работали для аналогичных наборов данных, в качестве отправной точки для байесовской оптимизации [6].

Auto-Sklearn — довольно известная платформа AutoML. Статья имеет более 1900 цитирований и помогла команде разработчиков (AutoML.org) победить в первом и втором международном Конкурсе AutoML.

3.2 ТПОТ

Инструмент оптимизации конвейера на основе дерева — TPOT создает произвольные большие конвейеры машинного обучения с использованием генетического программирования. Конвейеры машинного обучения могут быть представлены в виде деревьев, где каждая ветвь представляет разные пути предварительной обработки данных. Каждый древовидный конвейер начинается с одной или нескольких копий входных данных (см. рис. 8), затем данные передаются одному из следующих операторов:

Предварительная обработка объектов: каким-либо образом модифицирует набор данных, либо преобразуя объекты, либо создавая новые.
Выбор объектов: уменьшает количество объектов в наборе данных по некоторым критериям.
Комбинация. Позволяет объединить несколько измененных вариантов набора данных в один набор данных.
Модель. Реализует модель машинного обучения. Каждый конвейер должен иметь модель в качестве конечного оператора.

TPOT работает в течение нескольких поколений — в каждом поколении создается и оценивается популяция деревьев. Для следующего поколения сохраняется только часть лучших деревьев предварительной формовки. Затем создается новая популяция на основе сохранившихся деревьев предыдущего поколения. Деревья могут эволюционировать путем мутации (добавления или изменения частей дерева) или кроссовера (переключения ветвей между деревьями), см. рис. 9. Это продолжается до тех пор, пока количество поколений встречается. ТПОТ не собирают трубопроводы на конце [7].

TPOT поддерживает широкий выбор компонентов предварительной обработки и традиционных моделей машинного обучения от Scikit-learn и XGBoost. Возможность создавать произвольные большие конвейеры отделяет TPOT от других сред AutoML, которые скорее полагаются на фиксированные структуры конвейеров. Окончательный конвейер можно экспортировать в виде файла Python для дальнейшего использования и разработки. Это также полезная функция, которая выделяет TPOT.

3.3 АвтоКерас

AutoKeras — это платформа AutoML для глубокого обучения. Он использует поиск нейронной архитектуры (NAS), чтобы найти лучшую архитектуру нейронной сети для данной задачи и набора данных. AutoKeras использует байесовскую оптимизацию для поиска архитектур и сетевой морфизм для эффективного изменения сети.

Сетевой морфизм сохраняет функциональность сети, позволяя модифицировать сеть. Слой может быть расширен или добавлен в архитектуру. Тогда для обучения модифицированной архитектуры потребуется всего несколько эпох для повышения производительности по сравнению с переобучением с нуля [8].

AutoKeras не исследует традиционные алгоритмы машинного обучения. Однако он может обучать более сложные нейронные сети, чем другие AutoML, использующие неглубокие сети фиксированного размера. В AutoKeras также есть модули для обработки текста и изображения.

3.4 Автоглюон

AutoGluon — это платформа автоматизированного машинного обучения Amazon с открытым исходным кодом. Он отличается от других AutoML тем, что не выполняет конвейерный поиск или настройку гиперпараметров. Вместо этого AutoGluon полагается на заранее определенный набор индивидуальных моделей, их новую архитектуру нейронной сети и ансамблевый метод; ансамбль многоуровневого стека (см. рис. 10).

AutoGluon начинает с подготовки набора данных в два этапа; независимая от модели и зависимая от модели предварительная обработка. Во время независимой от модели предварительной обработки набор данных преобразуется в формат путем категоризации, отбрасывания и внедрения функций. Затем копии обработанного набора данных передаются методам, специфичным для модели, где для каждой модели применяется дальнейшая адаптация набора данных.

Затем AutoGluon будет обучать модели в специально выбранном порядке на предварительно обработанных наборах данных. Он начнется с быстрых надежных моделей, таких как Random Forest, и будет постепенно обучать менее надежные и более медленные модели, такие как k-Nearest Neighbours. AutoGluon обучает набор моделей для каждого слоя. Предсказания слоя объединяются с исходными входными данными и передаются на следующий слой. Выходной слой представляет собой взвешенный ансамбль предсказания последнего слоя.

Обучая модели в определенном порядке, AutoGluon может найти лучшие модели, достижимые за ограниченное время. Учитывая больше времени, AutoGluon обучает больше моделей на разных разбиениях набора данных.

AutoGluon использует фиксированные методы предварительной обработки и предопределенный выбор нескольких похожих моделей (методы ансамбля на основе дерева). Однако эти модели имеют хорошую репутацию надежных и быстрых в обучении, а также с помощью них легко регулировать временную сложность. AutoGluon может автоматически определять задачу (классификация или регрессия) и обрабатывать переменные текста и времени/даты. Дополнительно AutoGluon имеет модули для обработки текста и изображений [9].

3,5 МЛАР

MLJAR создает конвейер машинного обучения, следуя заранее определенному набору шагов. Во-первых, он ищет набор предопределенных моделей с гиперпараметрами по умолчанию. Затем для каждой модели выполняется ограниченный случайный поиск. После этого MLJAR выполняет создание признаков с последующим выбором признаков. Во время выбора функции вставляется случайная функция и оценивается по сравнению с исходными и созданными функциями. Важность функции вычисляется с использованием наиболее эффективной модели для каждого алгоритма ML. Если функция менее важна, чем случайная функция в половине случаев, эта функция отбрасывается. После того, как функции выбраны, наиболее эффективные модели дополнительно настраиваются с помощью восхождения в гору. Наконец, модели объединяются с использованием стекирования, голосования или того и другого.

В MLJAR реализован пошаговый подход к оптимизации конвейера машинного обучения. Он исследует ограниченный набор методов предварительной обработки и использует только несколько похожих моделей (методы ансамбля на основе дерева). Однако MLJAR генерирует отчеты уценки для каждой обучаемой модели. Отчеты могут содержать общую информацию о модели, кривых обучения, графиках важности или графиках SHAP. MLJAR предлагает различные режимы («Объясните», «Выполните» и «Соревнуйтесь») в зависимости от варианта использования. Режимы определяют объяснимость отчетов, а также производительность и сложность обученных моделей [10].

4. Сравнение фреймворков AutoML

Наше сравнение
Отчет OpenML об AutoML

Наше сравнение

Мы внедрили все только что рассмотренные фреймворки AutoML и сравнили их на простой задаче классификации и регрессии. Модель случайного леса была дополнительно обучена и использовалась в качестве базовой модели для сравнения с AutoML. Мы попытались визуализировать их поведение, построив границы решения для задачи классификации и предполагаемую функцию для задачи регрессии. Каждый AutoML обучался примерно две минуты.

Мы использовали набор данных Iris для нашей задачи классификации. Из соображений визуализации мы использовали только два параметра («ширина чашелистика » и «длина чашелистика»). Границы решений между тремя классами («Setosa», «Versicolor» и «Virginica») вместе с точками данных показаны на рисунке 12.

Для нашей задачи регрессии мы сгенерировали одномерную функцию, синюю кривую, и отобрали 50 точек данных с некоторым шумом, представленным синими точками. Оранжевая кривая — это предполагаемая функция каждого AutoML (см. рис. 13).

Первое наблюдение, на которое стоит обратить внимание, заключается в том, что модели AutoML обобщают лучше, чем модели Random Forest. Это, пожалуй, наиболее заметно на графиках классификации, где Random Forest, по-видимому, переоснащает обучающие данные. AutoML избегает переобучения, автоматически разбивая данные на наборы для обучения и проверки, чего не делает Random Forest. Единственным исключением из этого наблюдения является модель регрессии от TPOT, которая обучала модель KNN со взвешенным расстоянием и 23 соседями.

Модель регрессии, обученная AutoKeras, четко показывает, где срабатывают функции активации нейронной сети, изменяя направление линейных линий. Модель регрессии Auto-Sklearn кажется гладкой функцией, но на самом деле представляет собой ансамбль из 7 гауссовских процессов, одного случайного леса и одного метода опорных векторов.

Характеристика методов ансамбля больше всего присутствует на графике регрессии AutoGluon и MLJAR. У них отличное поведение, создающее «пошаговые» оценки истинной функции, подобные Random Forest.

Правильное сравнение платформ AutoML является сложной задачей. Каждая платформа, вероятно, будет иметь различную производительность по сравнению друг с другом в зависимости от набора данных и задачи. Это обычная проблема для оценки и сравнения других методов машинного обучения. Чтобы преодолеть это, обычно устанавливается контрольный показатель, используемый для оценки определенных задач и в качестве точки отсчета для правильного сравнения методов и алгоритмов. Было предложено несколько бенчмарков для AutoML — один из них от OpenML.

Обзор AutoML от OpenML

OpenML предложил эталонный тест для AutoML. Он состоит из 71 задачи классификации и 33 задач регрессии, оцениваемых по двум разным временным ограничениям (1 и 4 часа). Они сравнили в тесте 9 фреймворков, среди которых Auto-Sklearn, TPOT, AutoGluon и MLJAR.

В опросе OpenML оценивал производительность, предпочтительную платформу в соответствии с характеристиками набора данных, точностью, временем вывода и ошибками. OpenML предоставляет инструмент визуализации, который авторы настоятельно рекомендуют использовать для самостоятельного изучения результатов AutoML.

Мы быстро попытаемся обобщить выводы OpenML в отношении исследованных нами сред. Имейте в виду, что эти фреймворки находятся в постоянном развитии, а это означает, что их результаты, вероятно, уже изменились.

Производительность фреймворков сравнивалась для разных задач и временных ограничений. Они использовали AUC для бинарной классификации, log loss для многоклассовой классификации и RSME для регрессии. Общие наблюдения были следующими: AutoGluon и TPOT соответственно имели лучшую и худшую производительность. Другие фреймворки были относительно близки по производительности. В большинстве сценариев AutoML превзошла даже самую сильную базовую модель — настроенный случайный лес.

OpenML использовал деревья Брэдли-Терри для сравнения производительности AutoML в соответствии с характеристиками наборов данных. Используя деревья Брэдли Терри, они смогли наблюдать, как некоторые фреймворки в среднем имели лучшую производительность в зависимости от атрибутов набора данных, таких как: количество экземпляров, количество функций или коэффициент дисбаланса, и это лишь некоторые из них. Тем не менее, OpenML пришел к выводу, что AutoGluon является предпочтительной структурой для большинства сценариев.

Когда OpenML сравнивал время вывода, AutoGluon и MLJAR оказались намного медленнее, чем другие AutoML. Оба приносят скорость в жертву точности, сильно полагаясь на методы ансамбля в качестве окончательной оценки и при выборе моделей (деревья ансамбля). У TPOT было самое быстрое время вывода среди исследованных нами фреймворков, что естественно, поскольку TPOT не является ансамблем [2].

5. Резюме

Машинное обучение открывает большие перспективы для развития бизнеса и научных исследований. К сожалению, машинное обучение требует большого опыта и ресурсов, что делает его недостижимым для многих. AutoML нацелен на демократизацию машинного обучения для неспециалистов за счет автоматизации более громоздких и сложных частей разработки ML.

Существует множество решений для AutoML. Некоторые из них предлагаются через облачные сервисы, а другие — как программное обеспечение с открытым исходным кодом. Мы изучили и сравнили несколько решений с открытым исходным кодом и обнаружили некоторые сходства: простые API с опциями для определения бюджета времени, до некоторой степени предварительная обработка данных и использование ансамблевых методов. Решения с открытым исходным кодом отличаются своим подходом к оптимизации конвейера машинного обучения, используя разные стратегии поиска и пространство поиска. Некоторые динамически исследуют широкий выбор и комбинации методов, в то время как другие были более привержены статическому подходу с узким набором методов.

Мы рассмотрели некоторые платформы AutoML с их преимуществами и недостатками. Основываясь на сравнении OpenML с AutoML, AutoGluon выделяется в большинстве случаев. Однако это достигается за счет широкого использования ансамблевых методов, что ставит под угрозу совместимость моделей и скорость вывода. У TPOT была худшая общая производительность, но у него есть возможность экспортировать конвейер, что для специалиста по данным может быть очень ценным. MLJAR предлагает наибольшую совместимость, автоматически создавая подробные отчеты. Опять же, имейте в виду, что это изменчивая область, и функции и производительность каждой платформы, вероятно, изменятся.

Следует подчеркнуть один важный момент: все фреймворки превзошли настроенный случайный лес, что само по себе показывает, что с AutoML можно очень далеко продвинуться. Во многих случаях это, пожалуй, достаточное решение некоторых проблем.

В целом, AutoML кажется растущей и востребованной областью исследований. И академические круги, и промышленность разрабатывают и исследуют системы AutoML. Автоматизированное машинное обучение имеет большие перспективы для многих целей, мобилизуя людей без опыта ML для использования ML. AutoML уже видел множество вариантов использования в различных дисциплинах.

AutoML пришел, чтобы остаться, и будет интересно посмотреть, как он будет внедрять инновации.

Благодарности

Эта работа финансировалась Европейским совместным предприятием по высокопроизводительным вычислениям (JU) в соответствии с соглашением о гранте № 951732. JU получает поддержку от исследовательской и инновационной программы Horizon 2020 Европейского Союза, а также от Германии, Болгарии, Австрии, Хорватии, Кипра, Чешской Республики. , Дания, Эстония, Финляндия, Греция, Венгрия, Ирландия, Италия, Литва, Латвия, Польша, Португалия, Румыния, Словения, Испания, Швеция, Великобритания, Франция, Нидерланды, Бельгия, Люксембург, Словакия, Норвегия, Швейцария, Турция, Республика Северная Македония, Исландия, Черногория.

Рекомендации

[1] Ф. Хаттер, Л. Котхофф, Дж. Ваншорен, «AutoML: методы, системы, проблемы», 2019.

[2] П. Гийсберс, М.Л.П. Буэно, С. Курс, Э. ЛеДелл, С. Пуарье, Дж. Томас, Б. Бишл, Дж. Ваншорен, AMLB: тест AutoML, 2022 г., доступно: https:/ /arxiv.org/abs/2207.12560

[3] М. Целлер, М. Ф. Хубер, Сравнение и обзор автоматизированных платформ машинного обучения, 2021 г., доступно: https://arxiv.org/abs/1904.12054

[4] К. Ван, К. Ву, М. Веймер, Э. Чжу, FLAML: быстрая и легкая библиотека AutoML, 2021 г., доступно: https://arxiv.org/abs/1911.04706

[5] Д. Синь, Э. Ю. Ву, Д. Дж. Ли, Н. Салехи, А. Парамешваран, Где AutoML? Понимание роли автоматизации в рабочих процессах машинного обучения, 2021 г., доступно: https://arxiv.org/abs/2101.04834

[6] М. Фойрер, А. Клейн, К. Эггенспергер, Дж. Спрингенберг, М. Блюм, Ф. Хаттер, Эффективное и надежное автоматизированное машинное обучение, 2015 г., доступно: https://papers.nips.cc /paper/2015/hash/11d0e6287202fced83f79975ec59a3a6-Abstract.html

[7] Р. С. Олсон, Н. Бартли, Р. Дж. Урбанович, Дж. Х. Мур, Оценка древовидного инструмента оптимизации конвейера для автоматизации обработки данных, 2016 г., доступно: https://dl.acm.org/doi/10.1145 /2908812.2908918

[8] Х. Джин, К. Сонг, С. Ху, Auto-Keras: эффективная система поиска нейронной архитектуры, 2019 г., доступно: https://arxiv.org/abs/1806.10282

[9] Н. Эриксон, Дж. Мюллер, А. Ширков, Х. Чжан, П. Ларрой, М. Ли, А. Смола, AutoGluon-Tabular: надежный и точный AutoML для структурированных данных, 2020 г., доступно: https://arxiv.org/abs/2003.06505

[10] А. Плоньска, П. Плоньски. Мляр: современная автоматизированная среда машинного обучения для табличных данных. версия 0.10.3, 2021 г. Доступно: https://github.com/mljar/mljar-supervised

Эта статья была написана в связи с EuroCC — EuroCC координирует деятельность в областях, связанных с искусственным интеллектом (ИИ), машинным обучением (МО), высокопроизводительным анализом данных (HPDA) и высокопроизводительными вычислениями (HPC) в национальных уровень и служить точкой контакта между Национальными центрами компетенций и заказчиками из промышленности, науки, полевыми экспертами и широкой общественностью.

Написано Адрианом Твилде Эвенсеном и Клаусом Йохансеном

AutoML: изучение современного состояния и обзор 5 фреймворков с открытым исходным кодом на Python

Машинное обучение