Понимание компромисса смещения и дисперсии в машинном обучении

Общая цель построения моделей машинного обучения с учителем — разработать модель для оценки цели (y) на основе некоторых признаков (x) путем обучения на наборе данных, который правильно отображает взаимосвязь между признаками и целевыми переменными.

Поскольку прогнозы, сделанные моделями, представляют собой оценки целей, основанные на разработанной функции, часто существует разница между прогнозируемыми значениями и фактическими значениями (наземная правда), которая известна как ошибка прогноза и используется для оценки точности прогноза. модель. Ошибка прогноза представляет собой сумму смещения, дисперсии и неустранимых ошибок.

Ошибка прогноза = погрешность + отклонение + неустранимая ошибка

Неустранимая ошибка является мерой шума в данных. Его нельзя удалить независимо от алгоритма или гиперпараметров, используемых при обучении модели, поскольку в реальности данные почти всегда будут содержать определенное количество шума. С другой стороны, ошибки смещения и дисперсии могут быть уменьшены в зависимости от используемых алгоритмов и их предпочтений.

Этот пост посвящен значениям и взаимосвязям между ошибками смещения и дисперсии и тому, как они влияют на предсказуемость моделей машинного обучения. Понимание этих концепций полезно при выборе модели, минимизации их влияния и построении эффективных моделей.

Что такое предвзятость?

Смещение — это мера ошибки прогнозирования, связанная с предположениями, которые алгоритм делает на обучающем наборе, который не обобщает данные. В большинстве случаев эта ошибка возникает, когда модель предполагает более простую связь между объектами и целями в данных, где на самом деле существуют сложные связи.

Для ясности представьте себе процесс обучения, в котором алгоритм предполагает линейную связь между функциями и целями, которые имеют нелинейные отношения.

В такой ситуации предполагаемая связь довольно проста, чтобы правильно сопоставить функции с целями. Ошибки прогнозирования, возникающие из-за таких неверных предположений или чрезмерного упрощения отношений характеристика-цель, известны как ошибка смещения.

Ошибка смещения является свидетельством того, что модель недостаточно точно соответствовала обучающим данным, чтобы делать точные прогнозы на тестовых данных. Хотя трудно получить алгоритм, который идеально соответствует данным, чтобы он отображал точную взаимосвязь между функциями и целями, важно иметь модели, которые достаточно хорошо соответствуют данным, чтобы делать точные оценки.

Случаи, когда модель настолько плохо соответствует данным поезда из-за неправильных предположений и обобщений, что она плохо работает как на данных поезда, так и на тестовых данных, характеризуются высоким смещением. Высокая предвзятость часто приводит к проблеме недообучения в машинном обучении, это означает, что модель не может в достаточной мере отразить взаимосвязь между функциями и целью в наборе поездов и, следовательно, не может точно обобщить как данные поезда, так и тестовые данные.

Что такое дисперсия?

Дисперсия — это мера несоответствий или изменений в прогнозах из-за изменений обучающей выборки. В этом смысле изменение набора, используемого для обучения, приводит к различным прогнозируемым целям.

Хотя это должно быть нормальным явлением, поскольку модель не может точно соответствовать двум наборам поездов, это становится проблемой, когда изменение набора поездов приводит к значительной разнице в прогнозируемых целях.

Обычно прогнозируемые цели должны быть идентичными, независимо от части данных, используемых при обучении модели, изменчивость прогнозируемых целей является свидетельством дисперсии.

Различия в прогнозируемых целях вызваны тем, что модель изучает взаимосвязи и шум в данных. Изучая шум на конкретном наборе поездов, модель не может хорошо обобщать новые данные и прогнозирует цели, которые отличаются от тех, которые были обучены на другом наборе поездов. Это может произойти, если используемый алгоритм слишком сложен для данных.

В соответствии с предыдущим примером предположим, что модель настолько хорошо подошла к набору поездов, что она изучает вторичные отношения (шум) в данных.

В этом сценарии, несмотря на то, что модель сопоставила идеальную взаимосвязь между функциями и целями для этого набора поездов, ее прогнозируемые цели будут значительно отличаться от целей другого набора поездов, поскольку эта взаимосвязь характерна только для этого набора поездов и не является общей для всех. все данные.

Подобная высокая дисперсия приводит к переоснащению — случаю, когда модель так хорошо справляется с обучением на данных поезда, но плохо работает с данными, которые она раньше не видела, и, следовательно, ненадежна для обобщения.

Компромисс смещения и дисперсии

Чтобы модель правильно отображала функции и цели достаточно хорошо, чтобы обобщать новые данные, должен быть баланс между ее способностью не упрощать задачу (предвзятость) и не усложнять ее (дисперсия), а находить «золотую середину», которая соответствует данным и достаточно хорошо обобщает.

Недообучение характеризуется высоким смещением и низкой дисперсией, в то время как переоснащение характеризуется низким смещением и высокой дисперсией. Оптимальная модель должна обладать низким смещением и дисперсией.

На самом деле уменьшение смещения модели приводит к увеличению ее дисперсии (поскольку улучшение подгонки данных поезда увеличивает вероятность переобучения) и наоборот. Поиск оптимальной сложности модели между смещением и дисперсией известен как компромисс между смещением и дисперсией.

Возможность разработать оптимальную сложность модели за счет минимизации ошибок смещения и дисперсии является ключом к минимизации общей ошибки прогнозирования и построению надежных моделей. Один из распространенных способов добиться этого в машинном обучении — получить больше данных для обучения и использовать методы регуляризации, которые выходят за рамки этого поста.

Сводка

Смещение вызвано неспособностью алгоритма правильно подобрать набор поездов из-за допущений, которые он делает для набора поездов, которые не применяются к данным, так что он не может обобщать данные. Высокое смещение приводит к недообучению модели. Дисперсия вызвана тем, что модель изучает вторичные отношения в конкретном наборе поездов, так что ее прогнозируемые цели отличаются от целей других наборов поездов с теми же данными. Высокая дисперсия вызывает переоснащение. Уменьшение смещения увеличивает дисперсию и наоборот. Компромисс смещения относится к поиску баланса между атрибутами смещения и дисперсии модели для достижения оптимальной сложности модели для надежных моделей.