Вы когда-нибудь проводили целый день, применяя различные алгоритмы машинного обучения (ML) из нескольких библиотек, справляясь с легионом условных и безусловных гиперпараметров и пытаясь справиться с различными методами обработки данных? Несомненно, это пробная работа с предварительным опытом. Эти повторяющиеся испытания могут быть очень трудоемкими и трудоемкими даже для опытных практиков ML.
Для решения этих вышеупомянутых проблем с быстрым построением моделей и удобным интерфейсом, не требуя каких-либо предварительных знаний в области науки о данных; пакет AutoML R forester
стал ярким кандидатом на рассмотрение.
Почему пакеты AutoML так важны?
В настоящее время приложения машинного обучения кристаллизовались во многих сферах нашей жизни, начиная от обнаружения мошенничества в бизнесе, распознавания изображений в социальных сетях, автомобилей с автоматическим управлением и заканчивая персонализированной медициной в здравоохранении и т. Д. Этот постоянно растущий спрос привел к развитию машинного обучения. системы, которые могут работать мгновенно, эффективно и автоматически с минимальными усилиями человека - так называемое автоматизированное машинное обучение (AutoML).
Автоматизированное машинное обучение - это процесс полной автоматизации задач применения машинного обучения к реальным проблемам. Высокая степень автоматизации AutoML позволяет неспециалистам использовать и развертывать модели без предварительных знаний или с небольшими предварительными знаниями.
Существует ряд существующих библиотек autoML, которые охватывают этапы проблемы машинного обучения, такие как mlr3, caret или H2O. Несмотря на это, разные синтаксисы и требования к конкретному объекту данных из этих библиотек могут привести к другому утомительному процессу чтения объемной документации. Кроме того, использование разных библиотек может помешать пользователям синхронизировать различные части рабочего процесса машинного обучения, как ожидалось.
Чтобы свести к минимуму все мелкие недостатки, упомянутые ранее, с девизом:
«Эффективность, быстрота, удобство использования и полный охват рабочего процесса машинного обучения»
мы хотели бы представить пакет forester
.
пакет лесника
Пакет forester
автоматически капсулирует важные этапы конвейера машинного обучения: предварительную обработку данных, разработку функций, создание модели, оптимизацию гиперпараметров, оценку модели и, что важно, объяснение путем подключения к пакету DALEX
для повышения надежности развертывания. модели. Инновационные идеи в упаковке forester
:
- Нет требований к данным - нет необходимости создавать отдельный объект для каждой модели. Пакет имеет дело с общими структурами данных, такими как фреймы данных, матрицы, таблицы данных. Он выполняет проектирование функций, поэтому пользователям не нужно.
- Простой пользовательский интерфейс. Для создания модели достаточно одной функции с тремя обязательными параметрами.
- Автоматическая оптимизация гиперпараметров - помимо обученной модели, автоматически оптимизируется и выбирается набор гиперпараметров.
- Сравнение и выбор лучшей модели - пакет forester позволяет сравнивать построенные модели и выбирать лучшую по заданной метрике.
- Предоставление объяснений. Объяснение играет решающую роль в устранении сопротивления и повышении доверия лиц, принимающих решения, при использовании результатов модели. Благодаря интеграции с пакетом DALEX, forester пользователи могут создавать пояснения как на локальном, так и на глобальном уровнях.
Пример использования лесничего
data("titanic", package = 'DALEX') best_model <- forester(data = titanic, target = "survived", type = "classification", metric = "precision", tune = FALSE)
Чтобы узнать о более глубоком и выгодном использовании пакета forester
, следите за частью 2 из этой серии: Путешествие по джунглям моделей! Что еще о пакете Forester R?
Исходный код и подробное описание нашего пакета доступны по адресу: https://github.com/ModelOriented/forester
Если вас интересуют другие сообщения об объяснимом, справедливом и ответственном машинном обучении, подпишитесь на #ResponsibleML на Medium.