Классификатор случайного леса — это алгоритм ансамбля, который создает набор деревьев решений из случайно выбранного подмножества обучающего набора, который затем объединяет голоса из разных деревьев решений для определения окончательного класса тестового объекта. .

Для лучшего понимания предположим, что Рам планирует купить машину. После исчерпывающего исследования автомобиля он все еще не знает, какую машину он хочет. Он решает прислушаться к мнению своего друга Энди. Чтобы понять требования Рама, Энди собирает некоторые данные, задавая ему несколько вопросов, таких как:

  1. Сколько вы готовы потратить?
  2. Вы планируете купить подержанный или новый автомобиль?
  3. Вам нравится использовать его для поездок на работу или для удовольствия?
  4. Какой из них вам больше нравится: White Honda Civic или Blue Genesis Coupe?
  5. Какой из них вам нравится Tesla Model S или Tesla Model 3?

Этот процесс постановки вопросов относится к категории деревьев решений.

Энди предлагает Раму машину, основываясь на его ответах и ​​нескольких предположениях. Поскольку Энди друг Рэма, есть шанс, что его мнение может быть предвзятым. Например, Энди предположил, что Раму нравятся электромобили, так как ему нравятся и Tesla Model S, и Tesla Model 3. Однако может быть случай, когда Раму нравится Model S от Tesla за ее дизайн, а Model 3 — за ее экономичность. В другом случае, когда Рэму дают выбор между Blue Genesis Coupe и White Honda Civic, он выбирает последнее, и Энди предположил, что Рэму нравятся белые и экономичные автомобили. Чтобы избежать предвзятости и получить более широкую перспективу, Рам обращается за советом к другому своему другу и дает каждому из них разные ответы. Например, он выбирает Blue Genesis Coupe вместо White Honda Civic, основываясь на тест-драйве, который он совершил накануне на потрясающей автомагистрали. Он отвечает каждый раз по-разному, потому что он либо сбит с толку, либо неясен, либо основан на своих предпочтениях в данном случае. Чтобы избежать предвзятости и ошибок при получении предложения, Рам избегает узких вопросов, давая разные и тревожные ответы. Соблюдая такие правила, он получает множество советов. Такой пул советов называется Random Forest.

Преимущества:

  1. Очень легко измерить относительную важность каждого признака в прогнозе.
  2. В классификаторе случайного леса избегают переобучения, так как это среднее значение деревьев решений.

Недостатки:

  1. Большие деревья делают алгоритм медленным и неэффективным.