Классификатор случайного леса — это алгоритм ансамбля, который создает набор деревьев решений из случайно выбранного подмножества обучающего набора, который затем объединяет голоса из разных деревьев решений для определения окончательного класса тестового объекта. .
Для лучшего понимания предположим, что Рам планирует купить машину. После исчерпывающего исследования автомобиля он все еще не знает, какую машину он хочет. Он решает прислушаться к мнению своего друга Энди. Чтобы понять требования Рама, Энди собирает некоторые данные, задавая ему несколько вопросов, таких как:
- Сколько вы готовы потратить?
- Вы планируете купить подержанный или новый автомобиль?
- Вам нравится использовать его для поездок на работу или для удовольствия?
- Какой из них вам больше нравится: White Honda Civic или Blue Genesis Coupe?
- Какой из них вам нравится Tesla Model S или Tesla Model 3?
Этот процесс постановки вопросов относится к категории деревьев решений.
Энди предлагает Раму машину, основываясь на его ответах и нескольких предположениях. Поскольку Энди друг Рэма, есть шанс, что его мнение может быть предвзятым. Например, Энди предположил, что Раму нравятся электромобили, так как ему нравятся и Tesla Model S, и Tesla Model 3. Однако может быть случай, когда Раму нравится Model S от Tesla за ее дизайн, а Model 3 — за ее экономичность. В другом случае, когда Рэму дают выбор между Blue Genesis Coupe и White Honda Civic, он выбирает последнее, и Энди предположил, что Рэму нравятся белые и экономичные автомобили. Чтобы избежать предвзятости и получить более широкую перспективу, Рам обращается за советом к другому своему другу и дает каждому из них разные ответы. Например, он выбирает Blue Genesis Coupe вместо White Honda Civic, основываясь на тест-драйве, который он совершил накануне на потрясающей автомагистрали. Он отвечает каждый раз по-разному, потому что он либо сбит с толку, либо неясен, либо основан на своих предпочтениях в данном случае. Чтобы избежать предвзятости и ошибок при получении предложения, Рам избегает узких вопросов, давая разные и тревожные ответы. Соблюдая такие правила, он получает множество советов. Такой пул советов называется Random Forest.
Преимущества:
- Очень легко измерить относительную важность каждого признака в прогнозе.
- В классификаторе случайного леса избегают переобучения, так как это среднее значение деревьев решений.
Недостатки:
- Большие деревья делают алгоритм медленным и неэффективным.