Регрессия

Регрессия – это контролируемый метод машинного обучения, который используется, когда зависимая переменная является непрерывной по своей природе.

Например Прогнозирование цен на жилье, зарплаты на основе опыта и т. д.

Простая линейная регрессия

Когда в нашем наборе данных есть одна независимая переменная и непрерывная зависимая переменная, такую ​​проблему можно решить с помощью Простой линейной регрессии.

Простая линейная регрессия может быть представлена ​​следующим уравнением:

y’=bx+c

Здесь,

x : это независимая переменная (входная переменная).

y’: прогнозируемый результат

m : наклон линии на графике между x и y.

c : это константа, которая является значением y, когда x=0

Основная идея простой линейной регрессии заключается в том, что она строит линию на 2D-графике между x и y таким образом, чтобы она проходила через все точки в обучающем наборе данных. и находит оптимальные значения m&c для минимизации функции стоимости, определяемой как :

MSE = Σ ( y - y’ )² для всех обучающих примеров

Здесь,

MSE: среднеквадратическая ошибка

y : ожидаемый результат

y’: прогнозируемый результат

Пример:

Остатки — это расстояния между ожидаемым выходом и линией графика между x и y.

Пример кода:

Множественная линейная регрессия или многомерная регрессия

В множественной линейной регрессии у нас есть несколько зависимых переменных и непрерывная независимая переменная.

Этот тип регрессии используется, когда у нас есть несколько функций в наших наборах данных, которые используются для прогнозирования вывода.

Например, прогнозирование цен на жилье по различным характеристикам, таким как CRIM (уровень преступности на душу населения по городам), NOX (концентрация оксидов азота в частях на 10 миллионов), RM (среднее количество комнат в жилище) и т. д.

Множественная линейная регрессия может быть представлена ​​следующим уравнением:

Здесь,

x1,x2,x3…. : это независимые переменные.

m1,m2,m3… : коэффициенты

b : константа

Построение модели: обратное распространение

Поскольку у нас есть много переменных в многомерной регрессии, поэтому необходимо удалить переменные, присутствие которых оказывает меньшее или незначительное влияние на прогнозирование вывода.

Для этого существуют различные подходы, например:

  1. Обратная ликвидация
  2. Выбор вперед
  3. Двунаправленное устранение
  4. Сравнение баллов

Здесь мы обсуждаем только метод обратного исключения построения модели.

Алгоритм обратного исключения:

  1. Выберите уровень значимости, соответствующий модели (например, SL = 0,05).
  2. Соответствуйте полной модели со всеми возможными предикторами.
  3. Рассмотрим предиктор с самым высоким P-значением. Если P›SL, перейдите к шагу 4. В противном случае перейдите к шагу 6.
  4. Удалить предиктор
  5. Подберите модель после удаления предиктора, перейдите к шагу 3
  6. Модель готова

Пример кода: