Его важность для удовлетворительной и эффективной разработки моделей машинного обучения

Введение

Когда дело доходит до разработки моделей прогнозирования, очевидно, что нас больше всего интересует модель, способная давать эффективные прогнозы. Поэтому мы должны быть осторожны с некоторыми понятиями, наукой и метриками.

Понятия Смещение, Дисперсия и Компромисс между смещением и дисперсией — это некоторые концепции, которые необходимо учитывать и использовать при разработке прогностической модели.

Объяснение того, что такое предвзятость

Смещение — это поведение прогностической модели, точнее на этапе обучения модели, то есть когда модель обучается. Если модель проста, например модель линейной регрессии, это означает, что модель имеет простое поведение при подгонке данных, точнее говоря, модель не может касаться точек данных в позициях за пределами своей линии или, как я называю это, радиус обзора. Когда происходит противоположное этому, то есть модель достигает точек данных в разных положениях за пределами прямой линии, например, регрессор случайного леса, следовательно, возникает сложная модель. Таким образом, уровень сложности модели определяет предвзятость.

Копая глубже, мы вызываем предвзятость при подгонке модели. Настраиваем модель на этапе обучения модели. Чтобы прояснить концепцию соответствия модели, помните, что при разработке прогностической модели мы разделяем набор данных на две части: данные для обучения и данные для тестирования. Данные обучения используются для подгонки модели. Таким образом, когда модель слишком проста, она плохо согласуется с обучающими данными, что приводит к большим ошибкам на этапе прогнозирования, потому что то, что модель узнает из обучающих данных, воспроизводится при получении непросмотренных данных. Однако, когда модель слишком сложна и очень хорошо усваивает обучающие данные, ее способность прогнозировать на основе неиспользованных данных становится плохой, потому что модель очень хорошо усвоила подмножество данных (обучающие данные), но не может обобщить свое обучение, например, человеческий фактор. существо делает это благодаря своей ассимиляционной способности. В этом случае будет большая дисперсия в прогнозах, так как ошибки будут высокими. Итак, мы входим в понятие дисперсии.

Объяснение того, что такое дисперсия

Дисперсия — это отношение между предсказаниями модели и реальными или тестовыми данными. Чем выше дисперсия, тем больше расстояние между прогнозируемым значением и реальным значением. Верно и обратное: чем меньше дисперсия, тем меньше ошибка.

Простые модели, как правило, генерируют большое смещение и низкую дисперсию, а сложные модели, как правило, генерируют низкое смещение и высокую дисперсию. Таким образом, можно утверждать, что существует обратно пропорциональная зависимость. Итак, мы входим в понятие Компромисс смещения и дисперсии.

Объяснение того, что такое компромисс смещения и дисперсии

Эта концепция представляет собой отношение между различными уровнями предвзятости и дисперсии, в котором функция цели этой концепции является оптимальной точкой этого отношения, чтобы создать баланс между этими двумя концепциями.

Ниже приведено изображение, демонстрирующее эту взаимосвязь:

Синяя линия представляет дисперсию в зависимости от увеличения или уменьшения сложности модели. Зеленая линия представляет смещение в зависимости от увеличения или уменьшения сложности модели. Красная линия — это сумма дисперсии и смещения. Обратите внимание, что дисперсия и смещение обратно пропорциональны. Также обратите внимание, что когда у нас есть модель с низким смещением и высокой дисперсией, у нас есть переобученная модель. Противоположностью является недооснащенная модель.

Оптимальный уровень смещения и дисперсии — это когда эти две концепции в балансе обеспечивают наименьшую ошибку в диаграмме (или концепции) компромисса смещения и дисперсии.

В этом другом примере мы отмечаем другое поведение диаграммы выше:

Обе линии начинают уменьшаться, и на определенном уровне, в то время как синяя линия (линия смещения) уменьшается, красная линия (линия отклонения) начинает увеличиваться. Точно в той точке, где обе линии достигают наименьшей ошибки прогнозирования, находится уровень сложности модели, который необходимо использовать для повышения производительности прогнозирующей модели.

На приведенном ниже рисунке показаны различные типы смещения и дисперсии, которые может проявлять модель.

Цель - красный центр. Чем дальше данные от центра/цели, тем выше ошибка.

Низкое смещение и низкая дисперсия

Он представляет собой идеальную модель, поскольку является сложной и обобщающей моделью.

Низкое смещение и высокая дисперсия

Он представляет собой переобученную модель, поскольку является сложной и необобщающей моделью.

Высокое смещение и низкая дисперсия

Она представляет собой недообученную модель, так как не является сложной и является чрезмерно обобщающей моделью.

Высокое смещение и высокая дисперсия

Он представляет собой определенно противоречивую модель.

Математическая формула для расчета общей ошибки

Прежде чем перейти к формуле, я введу понятие неустранимой ошибки (ошибок). Эти ошибки не могут быть уменьшены и присутствуют на этапе обучения независимо от модели. Они могут быть вызваны неизвестными факторами, влияющими на выявление связи между переменными.

Общая ошибка может быть описана следующим математическим выражением:

Разработка лучшей модели

Существуют методы, позволяющие решить и избежать этих проблем, представленных выше. Представляю некоторые из них:

Избегайте переобучения

Это можно сделать, выбрав более простой алгоритм прогнозирования с меньшим количеством параметров. Другое решение — собрать больше данных и ввести их в набор данных. И последнее, но не менее важное: шум, такой как выбросы, может повредить модели.

Как избежать недообучения

Неподходящий алгоритм прогнозирования, не очень мощный для обработки данных, может привести к недообучению, поэтому более мощные алгоритмы более интересны. Другой причиной недообучения являются нерепрезентативные характеристики и данные. Данные обучения или набор данных не соответствуют действительности. Таким образом, соответствующие данные должны быть рассмотрены и введены.

Заключение

Мы видели, что поиск баланса между смещением и дисперсией имеет решающее значение для высокопроизводительной прогностической модели. Процесс поиска баланса является интерактивным, с использованием и тестированием различных алгоритмов и настроек; обучение и исправления. Поэтому специалист по данным должен посвятить себя этому шагу. На самом деле конечный продукт будет удовлетворительным и эффективным.

Рекомендации

Понимание компромисса смещения и дисперсии: http://scott.fortmann-roe.com/docs/BiasVariance.html

Нежное введение в компромисс смещения и дисперсии в машинном обучении: https://machinelearningmastery.com/gentle-introduction-to-the-bias-variance-trade-off-in-machine-learning/