Что такое методы ансамбля в машинном обучении?

Визуальное пошаговое руководство по ансамблевым методам машинного обучения с помощью шпаргалки

Фон

Допустим, вы переехали на новое место и хотите пообедать вне дома. Как найти хорошее место?

Решение 1. Найдите кулинарного критика, который действительно хорошо разбирается в своей работе, и посмотрите, есть ли у него какие-либо рекомендации относительно ресторанов в вашем районе.

Решение 2. Воспользуйтесь Google и случайным образом просмотрите отзыв одного пользователя о нескольких ресторанах.

Решение 3. Воспользуйтесь Google и просмотрите отзывы нескольких пользователей о нескольких ресторанах и усредните их оценки.

Разберем каждое из вышеперечисленных решений.

Решение 1:

  1. Критики питания в целом очень точны.
  2. Трудно найти кулинарного критика
  3. Может быть, кулинарный критик, которого вы нашли, был строгим вегетарианцем, а вы - нет. В этом случае рекомендации кулинарного критика будут необъективными.

Решение 2:

С другой стороны, получение звездного рейтинга случайного человека для ресторана в Интернете - это

  1. Гораздо менее точный
  2. Легче найти

Решение 3:

  1. В совокупности это может быть именно тот уровень точности, который вам нужен.
  2. Легче найти в Интернете
  3. Гораздо менее предвзято, поскольку пользователи, оценивавшие рестораны, принадлежат к разным слоям общества.

Следовательно, без необходимости спрашивать кулинарного критика, вы можете получить достаточно хорошую рекомендацию о ресторанах, просто изучив коллективное мнение группы случайных (но больших) людей. Это известно как мудрость толпы и является основой различных информативных веб-сайтов, таких как Quora, Stack-exchange, Wikipedia и т. Д.

Что такое ансамблевые методы?

Методы ансамбля в машинном обучении используют более одного слабого ученика в совокупности для прогнозирования результата. Вместо обучения одной большой / сложной модели для вашего набора данных вы обучаете несколько небольших / более простых моделей (слабые ученики) и объединяете их выходные данные (различными способами) для формирования вашего прогноза, как показано на рисунке ниже.

Типы ансамблевых методов

Вообще говоря, в наши дни в машинном обучении широко используются три разных типа ансамблевых методов.

  1. Упаковка
  2. Повышение
  3. Штабелирование

Эти методы имеют ту же концепцию мудрости толпы, но различаются деталями того, на чем они фокусируются, т Используется тип слабых учеников и тип агрегирования, используемый для формирования окончательного результата.

1. Упаковка

В режиме Bagging (B ootstrap Agg erat ing) несколько слабых обучаемых обучаются параллельно. Для каждого слабого ученика входные данные выбираются случайным образом из исходного набора данных с заменой и обучаются. Случайная выборка подмножества с заменой создает почти одинаковые выборки. Во время вывода тестовые входные данные передаются всем слабым ученикам, а выходные данные собираются. Окончательный прогноз осуществляется путем голосования по результатам каждого слабого ученика.

Полные шаги показаны на блок-схеме ниже.

В методах упаковки слабые ученики обычно относятся к одному типу. Поскольку случайная выборка с заменой создает выборки iid, а агрегирование переменных iid не меняет смещения, но уменьшает дисперсию, метод упаковки не меняет смещение в прогнозе, но уменьшает его дисперсию.

2. Повышение

При бустинге несколько слабых учеников изучаются последовательно. Каждая последующая модель обучается, придавая большее значение точкам данных, которые были неправильно классифицированы предыдущим слабым учеником. Таким образом, слабые ученики могут сосредоточиться на конкретных точках данных и вместе уменьшить смещение прогноза. Полные шаги показаны на блок-схеме ниже.

Первый слабый ученик обучается путем присвоения равных весов всем точкам данных в наборе данных. После обучения первого слабого ученика оценивается ошибка прогноза для каждой точки. На основе ошибки для каждой точки данных обновляется соответствующий вес точки данных для следующего учащегося. Если точка данных была правильно классифицирована обученным слабым учеником, ее вес уменьшается, в противном случае ее вес увеличивается. Помимо обновления весов, каждый слабый ученик также поддерживает скалярную альфа, которая количественно определяет, насколько хорошо слабый ученик классифицировал весь набор обучающих данных.

Последующие модели обучаются на этих взвешенных наборах точек. Один из способов обучения на взвешенном наборе точек - представить весовой член ошибки. Вместо использования среднеквадратичной ошибки используется взвешенная среднеквадратическая ошибка, гарантирующая, что точкам данных с более высоким присвоенным весом придается большее значение для правильной классификации. Другой способ - это взвешенная выборка, то есть точки выборки на основе их веса при обучении.

На этапе вывода тестовые данные передаются всем слабым ученикам, и их результаты записываются. Окончательный прогноз достигается путем масштабирования выходных данных каждого слабого ученика с соответствующим альфа-коэффициентом веса слабого ученика перед их использованием для голосования, как показано на диаграмме выше.

3. Укладка

В стекинге несколько слабых учеников обучаются параллельно, что аналогично тому, что происходит при бэггинге. Но в отличие от суммирования, при суммировании не выполняется простое голосование для объединения результатов каждого слабого ученика для расчета окончательного прогноза. Скорее, другой метаученик обучается на выходах слабых учеников, чтобы изучить сопоставление выходных данных слабых учеников с окончательным прогнозом. Полную блок-схему можно увидеть ниже.

У стекинга обычно есть слабые ученики разных типов. Следовательно, простой метод голосования, который дает равные веса всем прогнозам слабых учеников, не кажется хорошей идеей (это было бы, если бы слабые ученики были идентичны по структуре). Вот тут-то и появляется метаученик. Он пытается понять, какой из слабых учеников важнее.

Слабые ученики обучаются параллельно, а метаученики обучаются последовательно. После обучения слабых учеников их веса остаются неизменными для обучения метаучеников. Обычно метаученик обучается на другом подмножестве, чем то, что использовалось для обучения слабых учеников.

Шпаргалка

Следующая шпаргалка посвящена теме методов ансамбля, которые могут пригодиться.

Резюме

Вместо обучения одной сети методы ансамбля используют несколько слабых учеников и объединяют свои индивидуальные выходные данные для создания окончательных прогнозов. Сравнение различных методов ансамбля можно увидеть в таблице ниже.

Бонус:

Компактные шпаргалки по этой и многим другим важным темам машинного обучения можно найти по ссылке ниже.



Если эта статья была для вас полезной, не стесняйтесь хлопать в ладоши, делиться ей и отвечать на нее. Если вы хотите узнать больше о машинном обучении и науке о данных, подпишитесь на меня @ Aqeel Anwar или свяжитесь со мной в LinkedIn.