Ансамбль означает использование комбинации различных базовых обучающихся или моделей, то есть при прогнозировании чего-либо мы можем использовать более 1 модели последовательно или параллельно. Методы ансамбля состоят из двух частей — бэггинга и бустинга.

Бэггинг (агрегация Bootstrap)

Агрегация пакетов или Bootstrap — это метод ансамбля, в котором базовые учащиеся располагаются параллельно, и он следует принципу, называемому выборкой строк с заменой, чтобы распределить записи данных среди своих базовых учащихся для их обучения. Этот шаг называется Bootstrap, и, наконец, результаты все базовые учащиеся объединяются для получения окончательного результата модели, и этот процесс называется агрегацией. Теперь давайте посмотрим, как работает случайный лес, который представляет собой технику ансамбля и типа мешков.

Работа случайного леса

Всем известно, что Random Forest — очень хороший алгоритм бэгинга, который можно использовать как для классификации, так и для регрессии. Но теперь давайте заглянем за кулисы и посмотрим, как это работает на самом деле.

Учитывая набор данных, скажем, для задачи классификации, набор данных разбивается на подмножества или выборки с использованием выборки строк с заменой, а также выбора признаков с заменой. Эти подмножества или образцы затем передаются базовым учащимся, которые являются деревьями решений в случае случайного леса. Количество базовых учащихся является гиперпараметром и может быть установлено разработчиком модели.

После получения образцов данных эти базовые учащиеся обучаются, и всякий раз, когда приходят новые тестовые данные, они проходят через каждого базового учащегося, а окончательный результат этих тестовых данных определяется с использованием метода классификатора голосования для задач классификации, т. е. в зависимости от того, какой класс получает большинство голосов, который считается в качестве метки для тестовых данных, и если это вариант использования регрессии, то либо среднее значение, либо медиана всех прогнозов берется в качестве прогноза для новых тестовых данных.

Преимущества случайного леса:

  1. Random Forests объединяет несколько слабых базовых обучающихся, таких как деревья решений, чтобы сделать себя сильным обучающимся, и, следовательно, переоснащение уменьшается в большей степени.
  2. Вывод не зависит от одного прогноза, поэтому частота ошибок уменьшается.

Спасибо, что уделили свое драгоценное время людям. Очень скоро я вернусь со второй частью этого блога. А пока оставайтесь в безопасности, будьте здоровы.