Вы когда-нибудь проводили целый день, применяя различные алгоритмы машинного обучения (ML) из нескольких библиотек, справляясь с легионом условных и безусловных гиперпараметров и пытаясь справиться с различными методами обработки данных? Несомненно, это пробная работа с предварительным опытом. Эти повторяющиеся испытания могут быть очень трудоемкими и трудоемкими даже для опытных практиков ML.

Для решения этих вышеупомянутых проблем с быстрым построением моделей и удобным интерфейсом, не требуя каких-либо предварительных знаний в области науки о данных; пакет AutoML R forester стал ярким кандидатом на рассмотрение.

Почему пакеты AutoML так важны?

В настоящее время приложения машинного обучения кристаллизовались во многих сферах нашей жизни, начиная от обнаружения мошенничества в бизнесе, распознавания изображений в социальных сетях, автомобилей с автоматическим управлением и заканчивая персонализированной медициной в здравоохранении и т. Д. Этот постоянно растущий спрос привел к развитию машинного обучения. системы, которые могут работать мгновенно, эффективно и автоматически с минимальными усилиями человека - так называемое автоматизированное машинное обучение (AutoML).

Автоматизированное машинное обучение - это процесс полной автоматизации задач применения машинного обучения к реальным проблемам. Высокая степень автоматизации AutoML позволяет неспециалистам использовать и развертывать модели без предварительных знаний или с небольшими предварительными знаниями.

Существует ряд существующих библиотек autoML, которые охватывают этапы проблемы машинного обучения, такие как mlr3, caret или H2O. Несмотря на это, разные синтаксисы и требования к конкретному объекту данных из этих библиотек могут привести к другому утомительному процессу чтения объемной документации. Кроме того, использование разных библиотек может помешать пользователям синхронизировать различные части рабочего процесса машинного обучения, как ожидалось.

Чтобы свести к минимуму все мелкие недостатки, упомянутые ранее, с девизом:

«Эффективность, быстрота, удобство использования и полный охват рабочего процесса машинного обучения»

мы хотели бы представить пакет forester.

пакет лесника

Пакет forester автоматически капсулирует важные этапы конвейера машинного обучения: предварительную обработку данных, разработку функций, создание модели, оптимизацию гиперпараметров, оценку модели и, что важно, объяснение путем подключения к пакету DALEX для повышения надежности развертывания. модели. Инновационные идеи в упаковке forester:

  • Нет требований к данным - нет необходимости создавать отдельный объект для каждой модели. Пакет имеет дело с общими структурами данных, такими как фреймы данных, матрицы, таблицы данных. Он выполняет проектирование функций, поэтому пользователям не нужно.
  • Простой пользовательский интерфейс. Для создания модели достаточно одной функции с тремя обязательными параметрами.
  • Автоматическая оптимизация гиперпараметров - помимо обученной модели, автоматически оптимизируется и выбирается набор гиперпараметров.
  • Сравнение и выбор лучшей модели - пакет forester позволяет сравнивать построенные модели и выбирать лучшую по заданной метрике.
  • Предоставление объяснений. Объяснение играет решающую роль в устранении сопротивления и повышении доверия лиц, принимающих решения, при использовании результатов модели. Благодаря интеграции с пакетом DALEX, forester пользователи могут создавать пояснения как на локальном, так и на глобальном уровнях.

Пример использования лесничего

data("titanic", package = 'DALEX') 
best_model <- forester(data = titanic, 
                       target = "survived", 
                       type = "classification",
		       metric = "precision", 
                       tune = FALSE)

Чтобы узнать о более глубоком и выгодном использовании пакета forester, следите за частью 2 из этой серии: Путешествие по джунглям моделей! Что еще о пакете Forester R?

Исходный код и подробное описание нашего пакета доступны по адресу: https://github.com/ModelOriented/forester

Если вас интересуют другие сообщения об объяснимом, справедливом и ответственном машинном обучении, подпишитесь на #ResponsibleML на Medium.