"Статистика"
Линия регрессии с математикой для линейной регрессии
Вступление
Регрессия - это прогноз, в котором цель непрерывна, а ее приложений несколько. Это простейшая параметрическая модель. Каждый набор данных представлен в паре, состоящей из входного вектора признаков и значения метки. Основная цель - выдвинуть гипотезу о параметрах для прогнозирования целевых значений тестовых данных после обучения из набора обучающих данных.
В таблице ниже есть две переменные X и Y. Здесь Y известна как целевая переменная или независимая переменная, а X известна как независимая переменная.
Прогнозирование роста ребенка на основе его возраста и веса может быть примером проблемы регрессии.
Пусть X - это реальные значения:
И реальное значение Y:
Итак, процесс регрессии по заданному правилу:
Подход к регрессии
Ниже приводится общий подход к регрессии:
- Собирать информацию
- Подготовьте данные: для регрессии должны быть числовые значения. Если есть номинальные значения, они должны быть преобразованы в двоичные значения.
- Анализ: Подходит для визуализации в виде 2D-графиков.
- Поезд: Найдите веса регрессии.
- Тест: Измерьте R2 или корреляцию предсказанных значений и данных. Он измеряет точность модели.
Линия регрессии
Линейная регрессия заключается в нахождении наиболее подходящей прямой, проходящей через точки. Лучшая линия называется линией регрессии.
Уравнение линии регрессии:
Уравнение Intercept a:
Уравнение наклона b:
Свойства линии регрессии
Линия регрессии имеет следующие свойства:
- Регрессия всегда идет и возрастает через средние точки x и y.
- Эта линия минимизирует сумму квадратов разностей между наблюдаемыми и прогнозируемыми значениями.
- В строке регрессии x - это входное значение, а y - выходное значение.
Остаточная ошибка в линии регрессии
Остаточная ошибка - это разница между наблюдаемым значением зависимого значения и прогнозируемым значением.
Остаточная ошибка = наблюдаемое значение - прогнозируемое значение
Производная для нахождения уравнения линии регрессии
Рассмотрим следующие переменные x и y с их значениями:
Итак, чтобы вычислить значения a и b, давайте найдем значения XY, X² и Y².
Здесь,
Теперь найдите значение Intercept a:
Найдите значение уклона b:
Следовательно, уравнение линии регрессии:
Линейная регрессия
Давайте возьмем пример, попробуем спрогнозировать мощность автомобиля друга, чтобы его уравнение было таким:
Лошадиная сила = 0,0018 * годовая_плата - 0,99 * часы прослушивания радио
Это уравнение известно как уравнение регрессии . Значения 0,0018 и 0,99 известны как веса регрессии. И процесс нахождения этих весов регрессии называется регрессией.
Прогнозировать новые значения с учетом набора входных данных легко, как только найдены веса регрессии.
Для регрессии формула прогнозирования линейной регрессии выглядит следующим образом:
import mglearn mglearn.plots.plot_linear_regression_wave()
Существует множество различных линейных моделей регрессии. Разница между этими моделями заключается в том, как параметры модели w и b узнаются из обучающих данных и как можно контролировать сложность модели.
Плюсы линейной регрессии:
- Легко интерпретировать и недорого с точки зрения вычислений
Минусы линейной регрессии:
- Плохо моделирует нелинейные данные
Заключение
Поиск наиболее подходящей прямой линии через точки является важной частью линейной регрессии, и эта линия называется линией регрессии. Линейная регрессия заключается в нахождении наиболее подходящей прямой, проходящей через точки. Метод наименьших квадратов используется для нахождения наиболее подходящей прямой в регрессии.
использованная литература
Введение в линейную регрессию: http://onlinestatbook.com/2/regression/introC.html