В интервью меня спросили, в чем разница между случайным лесом и классификатором дерева решений. Я много рассказывал ему о них обоих, но ответ, которого он с нетерпением ждал, был «Компромисс смещения и дисперсии».

Хотя я не полностью согласен именно с этим ответом, я сосредоточусь на том, чтобы написать и объяснить то же самое в этом посте.

Смещение - термин, используемый для определения того, насколько прогнозируемые точки данных совпадают с фактическими точками данных, или разница между средним прогнозом нашей модели и фактическими значениями, поэтому мы можем сделать следующий вывод:

ВЫСОКИЙ СМЕЩЕНИЕ ========› НЕДОСТАТОЧНАЯ ПОДГОТОВКА

НИЗКИЙ СМЕЩЕНИЕ =========› ПЕРЕНАСТРОЙКА

Дисперсия — это значение, которое говорит нам о разбросе данных. Данные с высокой изменчивостью желательны в обучающем наборе, но не в тестовом наборе/невидимых данных.

ВЫСОКАЯ ДИСПРЕССИЯ =======› ПЕРЕНАСТРОЙКА

НИЗКАЯ дисперсия ========› НЕДОСТАТОЧНАЯ ПОДГОТОВКА

Модель LOW BIAS LOW VARIANCE желательна и считается хорошей моделью. Модель со слишком меньшим количеством параметров может иметь низкую дисперсию и высокое смещение, тогда как модель с большим количеством параметров может иметь высокую дисперсию и низкое смещение, поэтому важно найти правильный баланс между переоснащением и недообучением.

Методы ведения этой битвы при прогнозном моделировании

  1. Понимание данных и использование инстинкта для исключения или добавления переменных, которые помогут улучшить модель и устранить риски и ошибки, ведущие к переоснащению или недообучению.
  2. Чтобы обуздать эту ситуацию, можно использовать методы бэггинга и повторной выборки. Следовательно, интервьюер искал этот ответ. Случайный лес — это очень мощный алгоритм, использующий бэггинг, поскольку смещение полного случайного дерева равно смещению одного дерева решений. Деревья решений склонны к переоснащению данных.