Необходимость регуляризации модели будет уменьшаться по мере увеличения количества выборок, с которыми вы хотите обучить модель, или уменьшения сложности модели. Однако количество примеров, необходимых для обучения модели без (или с очень небольшим эффектом регуляризации), увеличивается [супер]экспоненциально с количеством параметров и, возможно, некоторыми другими факторами, унаследованными в модели.
Поскольку в большинстве задач машинного обучения у нас нет необходимого количества обучающих выборок или сложность модели велика, мы должны использовать регуляризацию, чтобы избежать или уменьшить вероятность переобучения. Интуитивно регуляризация работает следующим образом: она вводит штрафной член для argmin∑L(desired,predictionFunction(Wx))
, где L
— функция потерь, которая вычисляет, насколько предсказание модели отклоняется от желаемых целей. Таким образом, новая функция потерь становится argmin∑L(desired,predictionFunction(Wx)) + lambda*reg(w)
, где reg
— тип регуляризации (например, squared L2
), а lambda
— коэффициент, управляющий эффектом регуляризации. Затем, естественно, при минимизации функции стоимости векторы весов ограничены небольшой квадратной длиной (например, squared L2 norm
) и сжимаются до нуля. Это связано с тем, что чем больше квадрат длины весовых векторов, тем выше потери. Следовательно, векторы весов также должны компенсировать снижение потерь модели во время выполнения оптимизации.
Теперь представьте, если вы удалите член регуляризации (лямбда = 0). Тогда параметры модели могут принимать любые значения, и поэтому квадрат длины весовых векторов может расти независимо от того, линейная у вас модель или нелинейная. Это добавляет еще одно измерение к сложности модели (в дополнение к количеству параметров), и процедура оптимизации может найти векторы весов, которые могут точно соответствовать точкам обучающих данных. Однако при воздействии невидимых (проверочных или тестовых) наборов данных модель не сможет хорошо обобщать, поскольку она слишком подходит для обучающих данных.
person
Amir
schedule
14.01.2016
w
приводит к менее сложной модели, часто предпочтительны менее сложные модели. См. en.wikipedia.org/wiki/Occam%27s_razor для получения философской точки зрения. или en.wikipedia.org/wiki/Regularization_(mathematics) для более с математической точки зрения. - person cel   schedule 14.01.2016w
к нулю. Тогда вам нужно только понять, почему уменьшение параметровw
до нуля снижает сложность модели, и у вас есть интуитивное понимание. - person cel   schedule 14.01.2016