По мере того, как я все глубже погружаюсь в увлекательную сферу науки о данных, меня постоянно очаровывают бесконечные возможности этой области. Прошло три месяца, а я все еще открываю для себя новые и захватывающие области для изучения. В прошлом месяце я углубился в мир алгоритмов машинного обучения и был поражен мощью техники под названием Ensemble. Этот метод включает в себя мощные классы, такие как бэггинг, стекирование и повышение, и является базой для некоторых из самых популярных алгоритмов в отрасли, таких как Random Forest и XGBoost. Каждый специалист по данным уже знает, почему эти методы так популярны, но если мы посмотрим на это в двух словах, волшебство заключается в принципе «мудрости толпы».Этот принцип позволяет силе нескольких моделей объединиться и создать что-то еще более мощным, что делает Ensemble техникой, которую нельзя недооценивать.

Что такое мудрость толпы вообще? Вы когда-нибудь проверяли отзывы перед покупкой какого-либо товара на какой-либо платформе электронной коммерции? Или, возможно, вы настроились на популярное игровое шоу KBC, где участнику предоставляется спасательный круг в виде опроса аудитории — и чаще всего он оказывается на месте. Известно, что даже в мире политики результаты общественных опросов точно предсказывают результаты выборов. Что ж, все эти примеры следуют мудрости толпы. Это мощное напоминание о том, что старая пословица верна — две головы лучше, чем одна, а в данном случае много голов — еще лучше.

Короче говоря, когда дело доходит до обсуждения недостаточной и чрезмерной подгонки, наиболее распространенных проблем в алгоритмах машинного обучения, мы часто обращаемся к понятиям смещения и дисперсии. Смещение является частью ошибки обобщения из-за неправильного предположения, в то время как дисперсия относится к чрезмерной чувствительности модели к небольшим изменениям в обучающих данных. В идеале нам нужна модель с низким смещением и низкой дисперсией. Однако по мере того, как мы увеличиваем сложность модели, чтобы уменьшить смещение, дисперсия имеет тенденцию к увеличению. Обратное также верно. Таким образом, всегда существует компромисс между предвзятостью и дисперсией.

Ключевой вывод из этого обсуждения заключается в том, что при работе с одной моделью мы должны сделать выбор между смещением и дисперсией. Но, используя ансамбль моделей, мы можем получить лучшее из обоих миров. Ансамбль имеет такое же смещение, как и одиночная модель, но гораздо меньшую дисперсию. Это особенно полезно при работе с деревьями решений, которые, как известно, склонны к переобучению. Используя ансамбль, мы можем уменьшить дисперсию, не влияя на смещение.

Один правильный вопрос, который может возникнуть у нас в голове, заключается в том, как это может работать почти все время? Он опирается на две основные вещи: хорошие предикторы и разнообразие. В случае наших моделей предикторы относятся к различным алгоритмам, которые мы обучаем и настраиваем. Они могут быть похожими или разными в зависимости от используемого нами класса (например, случайный лес использует только деревья решений). Но дело не только в типе предиктора, который мы используем, но и в разнообразии моделей. Это может означать использование разных обучающих наборов для аналогичных моделей или использование одной и той же модели на различных обучающих данных. Комбинируя эти несколько предикторов, мы можем создать мощную «гигантскую» модель, которая сглаживает границы решений и объединяет линии регрессии. Чтобы понять это, давайте посмотрим на следующие примеры:

Приведенное выше представление - это простой способ понять, как совокупность нескольких моделей доминирует над отдельными. Это особенно полезно в тех случаях, когда некоторые модели могут не подходить, а другие — переполнять. Модель «босс» выступает в роли посредника, сглаживая границы решений, создаваемые каждой отдельной моделью. Этот мощный подход можно применять и к задачам регрессии, как показано на прилагаемом рисунке.

В заключение, мудрость принципа толпы лежит в основе ансамблевых методов. Собрав воедино разнородную группу алгоритмов, каждый из которых имеет свои сильные и слабые стороны, мы можем создать мощную и надежную модель, способную достичь более высокой производительности, чем любой отдельный алгоритм. Независимо от того, являетесь ли вы специалистом по данным, инженером или бизнес-профессионалом, понимание и использование ансамблевых методов может стать мощным инструментом в вашем арсенале. Итак, в следующий раз, когда вы столкнетесь со сложной проблемой или решением, не бойтесь собрать толпу и использовать силу коллективного разума.