Регрессия
Регрессия – это контролируемый метод машинного обучения, который используется, когда зависимая переменная является непрерывной по своей природе.
Например Прогнозирование цен на жилье, зарплаты на основе опыта и т. д.
Простая линейная регрессия
Когда в нашем наборе данных есть одна независимая переменная и непрерывная зависимая переменная, такую проблему можно решить с помощью Простой линейной регрессии.
Простая линейная регрессия может быть представлена следующим уравнением:
y’=bx+c
Здесь,
x : это независимая переменная (входная переменная).
y’: прогнозируемый результат
m : наклон линии на графике между x и y.
c : это константа, которая является значением y, когда x=0
Основная идея простой линейной регрессии заключается в том, что она строит линию на 2D-графике между x и y таким образом, чтобы она проходила через все точки в обучающем наборе данных. и находит оптимальные значения m&c для минимизации функции стоимости, определяемой как :
MSE = Σ ( y - y’ )² для всех обучающих примеров
Здесь,
MSE: среднеквадратическая ошибка
y : ожидаемый результат
y’: прогнозируемый результат
Пример:
Остатки — это расстояния между ожидаемым выходом и линией графика между x и y.
Пример кода:
Множественная линейная регрессия или многомерная регрессия
В множественной линейной регрессии у нас есть несколько зависимых переменных и непрерывная независимая переменная.
Этот тип регрессии используется, когда у нас есть несколько функций в наших наборах данных, которые используются для прогнозирования вывода.
Например, прогнозирование цен на жилье по различным характеристикам, таким как CRIM (уровень преступности на душу населения по городам), NOX (концентрация оксидов азота в частях на 10 миллионов), RM (среднее количество комнат в жилище) и т. д.
Множественная линейная регрессия может быть представлена следующим уравнением:
Здесь,
x1,x2,x3…. : это независимые переменные.
m1,m2,m3… : коэффициенты
b : константа
Построение модели: обратное распространение
Поскольку у нас есть много переменных в многомерной регрессии, поэтому необходимо удалить переменные, присутствие которых оказывает меньшее или незначительное влияние на прогнозирование вывода.
Для этого существуют различные подходы, например:
- Обратная ликвидация
- Выбор вперед
- Двунаправленное устранение
- Сравнение баллов
Здесь мы обсуждаем только метод обратного исключения построения модели.
Алгоритм обратного исключения:
- Выберите уровень значимости, соответствующий модели (например, SL = 0,05).
- Соответствуйте полной модели со всеми возможными предикторами.
- Рассмотрим предиктор с самым высоким P-значением. Если P›SL, перейдите к шагу 4. В противном случае перейдите к шагу 6.
- Удалить предиктор
- Подберите модель после удаления предиктора, перейдите к шагу 3
- Модель готова
Пример кода: