"Статистика"

Линия регрессии с математикой для линейной регрессии

Вступление

Регрессия - это прогноз, в котором цель непрерывна, а ее приложений несколько. Это простейшая параметрическая модель. Каждый набор данных представлен в паре, состоящей из входного вектора признаков и значения метки. Основная цель - выдвинуть гипотезу о параметрах для прогнозирования целевых значений тестовых данных после обучения из набора обучающих данных.

В таблице ниже есть две переменные X и Y. Здесь Y известна как целевая переменная или независимая переменная, а X известна как независимая переменная.

Прогнозирование роста ребенка на основе его возраста и веса может быть примером проблемы регрессии.

Пусть X - это реальные значения:

И реальное значение Y:

Итак, процесс регрессии по заданному правилу:

Подход к регрессии

Ниже приводится общий подход к регрессии:

  1. Собирать информацию
  2. Подготовьте данные: для регрессии должны быть числовые значения. Если есть номинальные значения, они должны быть преобразованы в двоичные значения.
  3. Анализ: Подходит для визуализации в виде 2D-графиков.
  4. Поезд: Найдите веса регрессии.
  5. Тест: Измерьте R2 или корреляцию предсказанных значений и данных. Он измеряет точность модели.

Линия регрессии

Линейная регрессия заключается в нахождении наиболее подходящей прямой, проходящей через точки. Лучшая линия называется линией регрессии.

Уравнение линии регрессии:

Уравнение Intercept a:

Уравнение наклона b:

Свойства линии регрессии

Линия регрессии имеет следующие свойства:

  1. Регрессия всегда идет и возрастает через средние точки x и y.
  2. Эта линия минимизирует сумму квадратов разностей между наблюдаемыми и прогнозируемыми значениями.
  3. В строке регрессии x - это входное значение, а y - выходное значение.

Остаточная ошибка в линии регрессии

Остаточная ошибка - это разница между наблюдаемым значением зависимого значения и прогнозируемым значением.

Остаточная ошибка = наблюдаемое значение - прогнозируемое значение

Производная для нахождения уравнения линии регрессии

Рассмотрим следующие переменные x и y с их значениями:

Итак, чтобы вычислить значения a и b, давайте найдем значения XY, X² и Y².

Здесь,

Теперь найдите значение Intercept a:

Найдите значение уклона b:

Следовательно, уравнение линии регрессии:

Линейная регрессия

Давайте возьмем пример, попробуем спрогнозировать мощность автомобиля друга, чтобы его уравнение было таким:

Лошадиная сила = 0,0018 * годовая_плата - 0,99 * часы прослушивания радио

Это уравнение известно как уравнение регрессии . Значения 0,0018 и 0,99 известны как веса регрессии. И процесс нахождения этих весов регрессии называется регрессией.

Прогнозировать новые значения с учетом набора входных данных легко, как только найдены веса регрессии.

Для регрессии формула прогнозирования линейной регрессии выглядит следующим образом:

import mglearn
mglearn.plots.plot_linear_regression_wave()

Существует множество различных линейных моделей регрессии. Разница между этими моделями заключается в том, как параметры модели w и b узнаются из обучающих данных и как можно контролировать сложность модели.

Плюсы линейной регрессии:

  1. Легко интерпретировать и недорого с точки зрения вычислений

Минусы линейной регрессии:

  1. Плохо моделирует нелинейные данные

Заключение

Поиск наиболее подходящей прямой линии через точки является важной частью линейной регрессии, и эта линия называется линией регрессии. Линейная регрессия заключается в нахождении наиболее подходящей прямой, проходящей через точки. Метод наименьших квадратов используется для нахождения наиболее подходящей прямой в регрессии.

использованная литература

Введение в линейную регрессию: http://onlinestatbook.com/2/regression/introC.html