Компромисс смещения и дисперсии, часть 2 из 3

В Части 1 мы рассмотрели большую часть базовой терминологии, а также несколько ключевых идей о формуле смещения-дисперсии (MSE = Bias² + Variance), в том числе этот парафраз из Анны Карениной:

Все совершенные модели похожи друг на друга, но каждая несчастливая модель может быть несчастлива по-своему.

Чтобы максимально использовать этустатью, я предлагаю взглянуть на Часть 1, чтобы убедиться, что вы хорошо подготовлены для ее усвоения.

При чем тут переобучение/недообучивание?

Допустим, у вас есть модель, которая настолько хороша, насколько вы собираетесь получить информацию, которая у вас есть.

Чтобы иметь еще лучшую модель, вам нужны более качественные данные. Другими словами, больше данных (количество) или более релевантные данные (качество).

Когда я говорю хорошо, насколько вы собираетесь получить, я имею в виду хорошо с точки зрения производительности MSE на данных, которые ваша модель раньше не видела. (Предполагается, что он «предсказывает, а не записываетдикт.) Вы отлично справились с получением того, что можете, из имеющейся у вас информации — остальное — ошибка. вы ничего не можете сделать с вашей информацией.

Реальность = лучшая модель + неизбежная ошибка

Но вот проблема… мы забежали вперед; этой модели у вас еще нет.

Все, что у вас есть, — это куча старых данных, на которых можно изучить эту модель. В конце концов, если вы сообразительны, вы проверите эту модель на данных, которых она раньше не видела, но сначала вам нужно изучить модель, найдя полезные закономерности в данных и пытаясь все ближе и ближе приближаться к заявленной цели. : MSE как можно ниже.

К сожалению, в процессе обучения вы не можете наблюдать ту MSE, к которой стремитесь (тот, что исходит из реальности). Вы можете вычислить только некачественную версию из вашего текущего набора обучающих данных.

Да, и еще, в этом примере вы не человек, вы алгоритм оптимизации, которому ваш босс-человек сказал крутить циферблаты в настройках модели, пока MSE не станет настолько низким, насколько это возможно.

Вы говорите: Отлично! Я могу сделать это!! Босс, если вы дадите мне чрезвычайно гибкую модель с большим количеством настроек («нейронные сети, кто-нибудь?), я могу дать вам идеальный обучающий MSE. Никаких предубеждений и отклонений».

Способ получить лучшую обучающую MSE, чем MSE теста истинной модели, состоит в том, чтобы подогнать весь шум (ошибки, о которых у вас нет прогностически полезной информации) вместе с сигналом. Как сделать это маленькое чудо? Усложнив модель. Соединение точек, по сути.

Это называется переоснащение. У такой модели отличная обучающая MSE, но огромная дисперсия, когда вы пытаетесь использовать ее для чего-то практического. Вот что вы получаете за попытку смошенничать, создавая решение сложнее, чем поддерживает ваша информация.

Босс слишком умен для ваших уловок. Зная, что гибкая и сложная модель позволяет вам получить слишком высокие баллы на тренировочном наборе, начальник изменяет функцию оценки, чтобы снизить сложность. Это называется регуляризация. (Честно говоря, мне бы хотелось, чтобы выходки инженеров упорядочивались, чтобы они не делали сложные вещи ради сложности.)

По сути, регуляризация говорит: "Каждая дополнительная сложность будет стоить вам денег, поэтому не делайте этого, если это не улучшит соответствие хотя бы на эту сумму..."

Если босс слишком упорядочивает — становится тираническим в отношении простоты — ваша оценка производительности будет ужасной, если вы не чрезмерно упростите модель, так что в конечном итоге вы это сделаете.

Это называется недообучение. Такая модель имеет отличные тренировочные баллы (в основном из-за всех преимуществ простоты), но в действительности имеет огромное искажение. Вот что вы получаете, настаивая на том, что решения должны быть проще, чем того требует ваша проблема.

И с этим мы готовы к Части 3, где мы собираем все это вместе и впихиваем компромисс между смещением и дисперсией в удобную для вас краткую скорлупу.

Спасибо за прочтение! Как насчет курса YouTube?

Если вам было весело здесь, и вы ищете полный курс прикладного ИИ, предназначенный для развлечения как новичков, так и экспертов, вот тот, который я сделал для вашего развлечения:

Ищете практические руководства по ML/AI?

Вот некоторые из моих любимых 10-минутных прохождений: