Интуиция за регуляризацией в машинном обучении

Здравствуйте, для того, чтобы наша модель хорошо работала как на наборе данных, так и на тестировании, одна из стратегий, которые мы используем, чтобы избежать переобучения, - это Регуляризация. Вот краткий обзор того, что делает магия регуляризации, чтобы избежать переобучения, давайте расшифруем магию регуляризации.

Основная идея регуляризации состоит в том, чтобы уменьшить влияние некоторых / всех функций, чтобы модель не охватывала полностью обучающий шаблон вместе с шумом.

Давайте быстро посмотрим, как мы настраиваем модель:
1. Инициализируем случайным образом веса / параметры модели
2. Предоставим модели ввод + веса для прогнозирования
3. Рассчитываем и Минимизируйте ошибку (между прогнозируемым и фактическим выходом), минимизируя «функцию стоимости»
- Чтобы минимизировать функцию стоимости, нам нужно найти правильные значения весов
- мы достигаем этого с помощью градиентного спуска или любой другой оптимизации алгоритм
- Рассчитываются новые веса
4.Перейдите к шагу 2 и повторите процесс

Вышеуказанные шаги Визуализируются, как показано ниже:

Регуляризация участвует при вычислении функции затрат и обновлении весов. К обычной функции стоимости, скажем, J (θ), добавляется штрафной член: ⁿ∑ᵢ₌₁ θᵢ²
т.е. суммирование всех весов в квадрате
Функция стоимости с регуляризацией :
J (θ) '= J (θ) + ⁿ∑ᵢ₌₁ θᵢ² - функция затрат с регуляризацией
(где n = количество функций, θᵢ параметры / вес гипотезы)

Теперь следующая часть - обновление весов. Эти веса связаны с характеристиками в уравнении гипотез, например: θ₀ + θ₁ x + θ₂ x² + θ₃ x³ + …… + θ₄ xⁿ
(x - характеристика) . Следовательно, уменьшение / наказание значения θ приводит к уменьшению влияния характеристик на гипотезу. Уменьшает значения терминов - θ₁ x, θ₂ x², θ₃ x³,…

Оптимизатор, такой как градиентный спуск, использует производную функции стоимости для обновления параметра - θᵢ
θj: = θj - α (D (J ( θ ))) - без регуляризации
(где α = скорость обучения, D (J (
θ ) - производная функции стоимости)
С новым определением функции стоимости J (θ) ' уравнение градиентного спуска изменяется на:
θj : = θj - α (D (J ( θ )) + (λ / m) * θj ) - С регуляризацией
(где
λ = параметр регуляризации)

Мы видим, что при обновлении весов дополнительный член вычитается, что приводит к штрафу за обновленный вес. λ следует выбирать оптимально, так как слишком большое значение может сгладить кривую, ведущую к недоподгонке.

Мы штрафуем за все веса, поскольку, если у нас есть сотни функций, трудно выбрать какую-либо конкретную функцию.
Примечание: θ ₀ - это термин смещения и не соответствует какой-либо функции, поэтому мы не обновляем его с помощью регуляризации: λ .