Алгоритм случайного леса и извлечение признаков с помощью бэггинга

Добро пожаловать снова! Сегодня мы быстро пройдемся по нескольким широко используемым методам бэггинга. Этот блог № 7 в серии пересмотров. Если вы хотите быстро пересмотреть некоторые концепции машинного обучения, вы можете просмотреть этот список.

Random Forest — это популярный метод создания пакетов для задач машинного обучения. Для табличных данных он работает довольно хорошо, может хорошо работать как для проблем регрессии, так и для задач классификации. Еще один метод, основанный на мешках, используемый для выбора функций и определения важности функций, - это классификатор Extra-Tree. Давайте углубимся в Что? Почему? и когда? использовать эти техники.

Случайный лес

Какие?

Деревья решений плохо работают с проверочными данными, так как они сильно перекрывают данные. Мы обсуждали эту концепцию в предварительном разделе «Бэгинг и бустинг».

Алгоритм

STEP 1: Create a Bootstrap Dataset, Bootstrap dataset can be created by selecting n random samples where duplicates are allowed. (Row Sampling)
STEP 2: Create a Decision Tree Using the Bootstrapped data, but using a random subset of features at each step. Typically √m  Number features are selected. (Column Sampling)
STEP 3: Go Back to STEP 1 and Repeat
STEP 4: Aggregate the Results
Where n is the total number of samples or Examples in the Data
Where m is the total number of Features or Variables in Data

Схематически случайный лес можно представить как

Поскольку функции выбираются случайным образом, может быть возможность выбора одних и тех же функций снова и снова, а некоторые из них могут быть упущены в процессе обучения. Это называется Out of Bag. Обычно одна треть (⅓) данных не используется для обучения. Итак, эти образцы, которые не используются в обучении, используются для проверки. Это известно как оценка Out of Bag (OOB_Score). Это может быть очень удобно для проверки производительности модели.

Почему?

Random Forest преодолевает проблему переоснащения деревьев решений. Поскольку алгоритм представляет собой модель, основанную на ансамбле, обычно дает хорошие результаты. Отдельные деревья могут в некоторой степени обучаться, но их объединение позволит модели учиться еще лучше.

Когда?

Случайный лес лучше всего подходит для табличных данных. Итак, всякий раз, когда данные табличные, стоит попробовать алгоритм случайного леса. Если данные содержат выбросы, предпочтительным является алгоритм случайного леса.

Преимущества

  • Масштабирование функций не требуется
  • Деревья решений будут сильно соответствовать данным, тогда как Случайный лес уменьшит высокую дисперсию (переобучение)
  • Устойчивость к выбросам в данных
  • Может обрабатывать отсутствующие значения
  • Out Of Bag Score может использоваться в качестве проверки производительности модели.
  • Хорошо работает с нелинейными данными

Недостатки

  • Случайные леса имеют тенденцию быть предвзятыми при работе с категориальными переменными.
  • Кроме того, для задач многоклассовой классификации алгоритм имеет тенденцию быть предвзятым для классов, которые имеют большую частоту.
  • Данные дисбаланса вредят производительности
  • Если модель большая, время вычислений будет большим.

Извлечение функций с помощью бэггинга

Дерево решений можно использовать для оценки важности признака путем вычисления его информационного прироста или примеси Джини. То есть может ли функция разделить данные с более высоким приростом информации или нет. Точно так же случайный лес можно использовать для расчета оценки важности. Он использует матрицу близости для вычисления сходства. Если 2 или более выборки попадают в один и тот же листовой узел, то они считаются похожими. Существует специальный алгоритм Extra Tree Classifier, который работает лучше по сравнению со случайными лесами. Основное различие между классификатором Extra-Tree и случайными лесами заключается в методе выборки.

Алгоритмически изменение с классификатором Extra tree заключается в том, что выбранные образцы не заменяются (дубликаты не допускаются). Также этот алгоритм можно использовать для выбора или извлечения признаков. Он также может дать ранжирование функций, которые важны для прогноза. Преимущества и недостатки почти аналогичны случайному лесу, за исключением того, что у него нет оценки «из коробки» и это чрезвычайно рандомизированный алгоритм, поэтому обучение будет лучше, чем у RF.

Потрясающий! Мы пересмотрели концепции случайных лесов и классификаторов дополнительных деревьев.

Спасибо за ваше драгоценное время. Давайте пересмотрим больше концепций в будущем. Увидимся в следующий раз.