Мы увидели, что такое линейная регрессия, и мы также смогли сделать наиболее подходящую линию для нашего набора данных с помощью подхода градиентного спуска, теперь нам приходится иметь дело с другой концепцией переобучения и недообучения.

Применяя методы машинного обучения к набору данных, мы стремимся сделать нашу модель идеальной. Чтобы сделать это, мы в конечном итоге переоснащаем нашу модель. И когда мы проверяем нашу модель со случайным набором данных, наша модель с треском провалилась, чтобы сделать прогноз, который, как мы думали, будет идеальным на основе ограниченного набора данных. Итак, как мы можем узнать, что наша модель переоснащается?

Для этого у нас есть много техник, но здесь мы обсуждаем искусственную регрессию, лассо-регрессию и эластичную сеть.

Когда мы используем регрессионные модели для обучения некоторых данных, есть большая вероятность, что модель будет соответствовать заданному набору обучающих данных. Регуляризация помогает решить эту проблему переобучения, ограничивая степени свободы данного уравнения, то есть просто уменьшая количество степеней полиномиальной функции за счет уменьшения их соответствующих весов.

В линейном уравнении нам не нужны огромные коэффициенты, поскольку небольшое изменение веса может иметь большое значение для зависимой переменной (Y). Таким образом, регуляризация ограничивает веса таких признаков, чтобы избежать переобучения. Простая линейная регрессия задается как:

𝑦=𝛽0+𝛽1𝑥1+𝛽2𝑥2+𝛽3𝑥3+…+𝛽𝑃𝑥𝑃y=β0+β1x1+β2x2+β3x3+…+βPxP

Используя метод OLS, мы пытаемся минимизировать функцию стоимости, заданную как:

Чтобы упорядочить модель, к функции стоимости добавляется штраф за усадку. Давайте посмотрим на различные типы регуляризации в регрессии:

Регрессия LASSO (оператор наименьшего абсолютного сжатия и выбора) (форма L1)

Регрессия LASSO наказывает модель на основе суммы величин коэффициентов. Срок регуляризации определяется выражением

регуляризация=𝜆∗ ∑ |m|

Где λ – коэффициент усадки.

и, следовательно, формула для потерь после регуляризации:

Ридж-регрессия (форма L2)

Регрессия хребта наказывает модель на основе суммы квадратов величины коэффициентов. Срок регуляризации определяется выражением

регуляризация=𝜆∗∑ |м²|

Где λ – коэффициент усадки.

и, следовательно, формула для потерь после регуляризации:

Это значение лямбда может быть любым и должно быть рассчитано путем перекрестной проверки того, что подходит модели.

Эластичная сеть

Согласно книге «Практическое машинное обучение», эластичная сеть является промежуточным звеном между регрессией гребня и регрессией лассо. Термин регуляризации представляет собой простое сочетание условий регуляризации Риджа и Лассо, и вы можете контролировать соотношение смеси α.

где α — параметр смешения между гребнем (α = 0) и лассо (α = 1).

Зачем использовать регуляризацию?

Регуляризация помогает уменьшить дисперсию модели без существенного увеличения систематической ошибки. Если в модели есть дисперсия, это означает, что модель не будет хорошо подходить для набора данных, отличного от обучающих данных. Параметр настройки λ управляет этим компромиссом смещения и дисперсии. Когда значение λ увеличивается до определенного предела, это уменьшает дисперсию без потери каких-либо важных свойств данных. Но после определенного предела модель начнет терять некоторые важные свойства, что увеличит смещение данных. Таким образом, выбор хорошего значения λ является ключевым. Значение λ выбирается с использованием методов перекрестной проверки. Выбирается набор λ и вычисляется ошибка перекрестной проверки для каждого значения λ, и выбирается такое значение λ, для которого ошибка перекрестной проверки минимальна.

Разница между Риджем и Лассо

Ридж-регрессия уменьшает коэффициенты для тех предикторов, которые вносят очень меньший вклад в модель, но имеют огромные веса, очень близкие к нулю. Но это никогда не делает их равными нулю. Таким образом, окончательная модель по-прежнему будет содержать все эти предикторы, хотя и с меньшими весами. Это не очень помогает в интерпретации модели. Именно здесь регрессия Лассо отличается от регрессии Риджа. В Лассо штраф L1 уменьшает некоторые коэффициенты точно до нуля, когда мы используем достаточно большой параметр настройки λ. Таким образом, помимо упорядочения, лассо также выполняет выбор признаков.