XGBoost означает «Экстремальное усиление градиента». Это алгоритм на основе дерева решений, который используется в машинном обучении. XGBoost использует структуру повышения градиента. Все эти концепции будут объяснены в этой статье:

ДЕРЕВО РЕШЕНИЙ

Деревья решений — это структуры, состоящие из набора конечных узлов, ветвей, а также внутренних узлов. Каждый конечный узел представляет собой метку класса. Внутренний узел представляет атрибуты, а ветви соединяют листья с этими внутренними узлами. Ветви представляют результаты на основе атрибутов.

Деревья решений создаются с помощью различных алгоритмов, способных разбивать данные на основе различных условий. Это контролируемые методы обучения. Они могут удовлетворять как задачам классификации, так и задачам регрессии.

Итак, на основе значения атрибутов корневой узел делится на подузлы. Эти подузлы далее делятся — и это продолжается.

Однако одним из недостатков деревьев решений является то, что они не способны эффективно оценивать значения. В таких случаях они очень склонны к ошибкам.

УСИЛЕНИЕ ГРАДИЕНТА

Повышение градиента — это метод машинного обучения, который используется для решения как задач классификации, так и регрессии. В этом методе окончательная модель создается из комбинации нескольких слабых моделей. Другими словами, модель прогнозирования представляет собой ансамбль слабых моделей. Эти слабые модели обычно представляют собой деревья решений.

Таким образом, существует ряд этапов. На начальных этапах создаются очень простые и слабые модели. Эти модели анализируются для выявления ошибок.

Эти ошибки представляют собой те точки данных, которые не могут быть вписаны в простую модель. Таким образом, для следующей модели эти ошибки учитываются. Другими словами, при создании каждой новой модели основное внимание уделяется ошибкам классификации из предыдущих моделей.

Наконец, все эти разные модели объединяются. Совокупность этих моделей дает нам окончательную модель.

АЛГОРИТМ XGBOOST

Как уже говорилось, XGBoost расшифровывается как Extreme Gradient Boosting. Это алгоритм, который использует структуру повышения градиента для прогнозирования. Он хорошо оптимизирован и, таким образом, обеспечивает превосходные результаты.

Как следует из названия, XGBoost — это просто гораздо более совершенная и усовершенствованная форма повышения градиента. Поскольку он хорошо оптимизирован, он требует меньше вычислительных ресурсов и может достигать хороших результатов за короткий промежуток времени.

XGBoost предлагает различные функции. К ним относятся :

  • Распараллеливание
  • Оптимизация кэша
  • Автоматическое сокращение
  • Регуляризация

Все вышеперечисленные функции значительно повышают скорость и производительность XGBoost. Рассмотрим подробно каждое из этих понятий.

ПАРАЛЛЕЛИЗАЦИЯ

XGBoost использует все ядра процессора для обучения. Это называется распараллеливанием. Другими словами, он использует многоядерную параллельную обработку. Это позволяет ему обучаться и делать прогнозы за короткий промежуток времени с меньшими вычислительными ресурсами.

ОПТИМИЗАЦИЯ кеша

В кеше хранятся часто используемые инструкции. Он используется для быстрого доступа к данным и действует как промежуточное звено между ЦП и основной памятью. XGBoost хранит свои промежуточные вычисления и статистику в кеше. Он оптимизирован таким образом, что прогнозы можно делать очень быстро за очень короткий промежуток времени.

АВТОМАТИЧЕСКАЯ ОБРЕЗКА

Функция Автообрезка в основном гарантирует, что деревья не вырастут за определенный предел. Другими словами, он управляет древовидной структурой. Части дерева, которые не помогают в классификации, удаляются. Это помогает поддерживать Bias-Variance. В результате модель становится более надежной и эффективной.

РЕГУЛИРОВАНИЕ

Регуляризация — это функция, предотвращающая переоснащение.

Переобучение относится к ситуации, когда модель обучается на очень большом количестве данных. Здесь происходит то, что модель рассматривает шум, а также неточные записи в качестве обучающих данных. Следовательно, когда в обучении задействовано много шума, это в конечном итоге влияет на точность прогноза.

Регуляризация — это форма регрессии, которая сужает оценки коэффициентов до нуля. Другими словами, эта функция предотвращает создание очень гибкой или сложной модели. Таким образом, исключается риск переобучения.

ЗАКЛЮЧЕНИЕ

XGBoost — очень мощный и надежный алгоритм. Он способен давать очень точные прогнозы за короткий промежуток времени. Кроме того, для обучения модели требуется меньшая вычислительная мощность. Алгоритм XGBoost также очень популярен в соревнованиях Kaggle.

ССЫЛКИ