Использование ИИ для автоматизации задач машинного обучения и улучшения управления жизненным циклом модели

Почему нам нужно заботиться об автоматизации искусственного интеллекта?

Одним из наиболее значительных достижений в области науки о данных за последние годы стали автоматизированные решения AI (AutoML), позволяющие бизнес-аналитикам и ИТ-специалистам выполнять сложные задачи машинного обучения с небольшим опытом программирования в области науки о данных или без него. AutoAI позволяет специалистам по обработке данных работать над проектами быстрее и эффективнее, используя автоматизацию ИИ для выполнения ключевых задач машинного обучения в проектах по науке о данных и ИИ.

Последние статистические данные показали, что, несмотря на взрывной рост спроса на роли в сообществе машинного обучения и науки о данных. 50% респондентов Data Scientist на Kaggle & KD Nuggets заявили, что у них менее двух лет опыта работы с методами машинного обучения, то же самое относится и к опыту кодирования.

Обеспечивая автоматическое проектирование функций, проверку модели, настройку модели, выбор и развертывание модели, интерпретируемость машинного обучения, временные ряды и автоматическое создание конвейера для оценки модели, Auto AI предоставляет компаниям расширяемую настраиваемую платформу анализа данных, которая удовлетворяет потребности различных варианты использования в разных отраслях.

Разработка функций - это сильное оружие, которое продвинутые специалисты по данным используют для извлечения наиболее точных результатов из алгоритмов. Auto AI использует набор алгоритмов и преобразований функций для автоматического проектирования новых ценных функций для заданного набора данных.

«К 2020 году количество гражданских специалистов по данным будет расти в пять раз быстрее, чем количество экспертов по данным. Организации могут использовать гражданских специалистов по данным, чтобы до некоторой степени восполнить пробел в талантах на машинное обучение, вызванный нехваткой и высокой стоимостью специалистов по данным ».

Источник: Gartner: 10 основных стратегических технологических тенденций для

Инструмент AutoAI в Watson Studio автоматически анализирует ваши данные и генерирует конвейеры моделей кандидатов, настроенные для вашей задачи прогнозного моделирования. Эти конвейеры модели создаются итеративно, поскольку AutoAI анализирует ваш набор данных и обнаруживает преобразования данных, алгоритмы и настройки параметров, которые лучше всего подходят для постановки вашей проблемы. Результаты отображаются в таблице лидеров, в которой показаны автоматически сгенерированные конвейеры модели, ранжированные в соответствии с целью оптимизации вашей задачи.

AI, проектирующий AI

Автоматизация ИИ может изменить способ работы бизнес-процессов. Нейронные сети и алгоритмы машинного обучения, возможно, являются наиболее мощными инструментами, доступными в настоящее время специалистам по данным. Однако, хотя лишь небольшая часть специалистов по обработке данных обладает навыками и опытом, необходимыми для создания высокопроизводительной нейронной сети с нуля, в то же время спрос намного превышает предложение.

В результате большинству предприятий трудно быстро и эффективно перейти на новую нейронную сеть, которая архитектурно спроектирована специально для удовлетворения потребностей их конкретных приложений, даже на этапе проверки концепции. Таким образом, технологии, которые устраняют этот пробел в навыках за счет автоматического проектирования архитектуры нейронных сетей для заданного набора данных, приобретают все большее значение.

AI, оптимизирующий AI

Использование искусственного интеллекта для разработки и оптимальной производительности моделей искусственного интеллекта открывает новые и столь необходимые возможности для разработки технологий искусственного интеллекта. Например, настройка параметров сложных сетей может занять много времени, подвержена ошибкам и может не масштабироваться со временем и ресурсами. Нейронные сети продолжают расти в размерах и сложности, поэтому крайне важно автоматизировать процесс выбора оптимальных параметров, чтобы гарантировать, что процесс машинного обучения генерирует точные и оптимальные результаты прогнозирования.

ИИ управляет ИИ

60% компаний рассматривают нормативные ограничения как препятствие на пути внедрения эффективных и автоматизированных политик ИИ. Без дорогостоящих ресурсов по науке о данных, поддерживающих несколько моделей ИИ в производственном приложении:

1. Когда дело доходит до проверки модели , возникает множество проблем, если модели искусственного интеллекта соответствуют требованиям и достигнут ожидаемых бизнес-результатов до развертывания.

2. При развертывании сложно отслеживать и измерять показатели успеха бизнеса.

3. Ресурсоемкие и ненадежные процессы для постоянного мониторинга бизнеса и соблюдения нормативных требований.

4. Для бизнес-пользователей невозможно обратная связь с тонкими знаниями предметной области в жизненном цикле модели.

Функциональные возможности Watson AutoAI

  1. Автоматическая подготовка данных

Большинство наборов данных содержат разные форматы данных и пропущенные значения, и, как мы знаем, большинство стандартных алгоритмов машинного обучения работают без пропущенных значений. AutoAI применяет различные алгоритмы или оценщики для анализа, очистки и подготовки необработанных данных для машинного обучения. Он автоматически обнаруживает и классифицирует функции на основе типа данных, например категориального или числового. Одним из наиболее важных требований является масштабирование переменных, обеспечивающее одинаковое масштабирование большинства переменных и уменьшение систематической ошибки машинного обучения. В зависимости от категоризации он использует оптимизацию гиперпараметров для определения наилучшего сочетания стратегий для вменения отсутствующих значений, кодирования признаков и масштабирования признаков для ваших данных.

2. Автоматизированная разработка функций

Разработка функций пытается преобразовать необработанные данные в комбинацию функций, которая наилучшим образом представляет проблему для достижения наиболее точного прогноза. AutoAI использует уникальный подход, который исследует различные варианты построения функций структурированным, не исчерпывающим образом, постепенно повышая точность модели с помощью обучения с подкреплением. Это приводит к оптимизированной последовательности преобразований данных, которая наилучшим образом соответствует алгоритмам этапа выбора модели.

3. Оптимизация гиперпараметров

Процесс оптимизации гиперпараметров уточняет наиболее эффективные конвейеры алгоритма модели BIA. AutoAI использует новый алгоритм оптимизации гиперпараметров, оптимизированный для дорогостоящих оценок функций, таких как обучение модели и скоринг, типичные для машинного обучения. Такой подход обеспечивает быструю сходимость к хорошему решению, несмотря на длительное время оценки каждой итерации.

4. Автоматический выбор модели

Следующим шагом будет автоматический выбор модели, соответствующей вашим данным. AutoAI использует новый подход, который позволяет тестировать и ранжировать алгоритмы-кандидаты по небольшим подмножествам данных, постепенно увеличивая размер подмножества, чтобы наиболее многообещающие алгоритмы достигли наилучшего соответствия. Такой подход экономит время без ущерба для производительности. Это позволяет ранжировать большое количество алгоритмов-кандидатов и выбирать наиболее подходящие для данных.

Стратегия IBM по автоматизации искусственного интеллекта при разработке искусственного интеллекта

1. Передача обучения

Трансферное обучение (TL) - важная часть многих приложений глубокого обучения. Трансферное обучение - это исследовательская проблема в машинном обучении (ML), которая фокусируется на хранении знаний, полученных при решении одной проблемы, и применении их к другой, но связанной проблеме. Например, знания, полученные при обучении распознаванию автомобилей, могут применяться при попытке распознать грузовики.

В основном это связано с масштабами производства обучения в системах глубокого обучения; они огромны и требуют значительных ресурсов. Существует множество предварительно обученных моделей, доступных для использования на различных платформах и задачах, таких как MobileNet, Yolo для Tensorflow и т. Д.

2. Поиск архитектуры нейронной сети

Поиск нейронной архитектуры (NAS) - это только один компонент конвейера автоматизации, который направлен на поиск подходящих архитектур для обучения модели глубокого обучения. Этот поиск сам по себе представляет собой вычислительно-ресурсоемкую задачу и вызвал огромный интерес со стороны сообщества глубокого обучения.

Следовательно, произошел всплеск разработки методов поиска по нейронной архитектуре, оставив поле с множеством конкурирующих вариантов с минимальной консолидацией разработанных методов или отсутствием рекомендаций, которые могли бы помочь практикующему специалисту в выборе подходящих методов. Мы устраняем этот пробел в нашем обзоре с помощью чрезвычайно тщательного анализа существующего ландшафта. Мы предлагаем формализм, объединяющий обширный пул существующих методов и критически исследующий различные подходы. Это четко подчеркивает преимущества различных компонентов, которые способствуют разработке и успеху поиска нейронной архитектуры, а также проливает свет на некоторые заблуждения в текущих тенденциях поиска архитектуры.

3. Оптимизация и развертывание модельного конвейера

Пока AutoAI генерирует модели, есть два разных представления, с помощью которых вы можете визуализировать процесс создания этих конвейеров. Это карта прогресса и карта отношений, как показано на следующих изображениях. Вы видите, что AutoAI выбрал классификаторы XGB, Random Forest и Decision Tree Classifiers в качестве наиболее эффективных алгоритмов для этого варианта использования. После предварительной обработки данных AutoAI определяет три наиболее эффективных алгоритма, и для каждого из этих трех алгоритмов AutoAI генерирует следующие конвейеры: автоматический выбор модели (конвейер 1), оптимизация гиперпараметров (конвейер 2), автоматическая разработка функций (конвейер 3), оптимизация гиперпараметров. (Трубопровод 4).

Каждый конвейер модели оценивается по множеству показателей, а затем ранжируется. Метрикой ранжирования по умолчанию для моделей бинарной классификации является область под кривой ROC, для моделей классификации с несколькими классами - точность, а для моделей регрессии - это среднеквадратичная ошибка (RMSE). Пайплайны с наивысшим рейтингом отображаются в таблице лидеров, поэтому вы можете просмотреть о них больше информации. Таблица лидеров также предоставляет возможность сохранить выбранные модельные трубопроводы после их просмотра.

Заявление об ограничении ответственности: часть выраженных здесь взглядов принадлежит автору статьи и может отражать или не отражать точку зрения IBM Corporation. Часть содержания. Авторские права на блог принадлежат корпорации IBM, и все права защищены, если не указано иное.