Простая линейная регрессия — это доступный и интуитивно понятный метод изучения связи между двумя переменными. В этом руководстве для начинающих мы шаг за шагом разберем концепции, используя в качестве примера взаимосвязь между объемом доставки и временем доставки.

Понимание основ:

Представьте, что вы пытаетесь выяснить, существует ли связь между объемом поставок, которые производит компания (x), и временем, которое требуется для выполнения этих поставок (y). В простой линейной регрессии мы предполагаем, что это отношение может быть представлено прямой линией.

Уравнение прямой можно записать как y = β₀ + β₁x, где:

  • y - время доставки (переменная ответа)
  • x - объем доставки (переменная предиктора или регрессора)
  • β₀ - точка пересечения с осью y (точка пересечения прямой с осью y)
  • β₁ - наклон (скорость изменения y при увеличении x)

Кроме того, остаток ε представляет собой разницу между фактическим временем доставки (y) и прогнозируемым временем доставки, основанным на нашей линии наилучшего соответствия. Итак, наше полное уравнение линейной регрессии принимает вид:

y = β₀ + β₁x + ε

Углубленное изучение простой модели линейной регрессии:

В этой модели среднее значение y (μ_y) — это среднее время доставки, а значение предиктора при рассмотрении среднего значения y (μ_y|ₓ) помогает нам понять взаимосвязь между объемом доставки и временем доставки.

При изменении объема доставки (x) меняется и среднее время доставки (µ_y). Это среднее время доставки зависит от значения x и может быть рассчитано с помощью уравнения µ_y = β₀ + β₁x.

Давайте посмотрим на другой пример. Мы собираемся проанализировать количество пектина и его влияние на твердость картофеля (МПа).

µ_y = среднее значение y

µ_y|_x = значение предиктора, когда меня интересует среднее значение y

Из SLR следует, что когда я изменяю x, среднее значение y изменяется

µ_y означает, что я смотрю на среднее значение переменной ответа. Это среднее значение зависит от значения x и равно β₀ + β₁x.

Возвращаясь к примеру с пектином, если мы установим x равным 2,25, тогда μ_y будет равно 75. Вот как вы читаете это уравнение. Если мы выберем значение для x, то среднее значение y|x даст мне это значение

Давайте визуализируем это

Мы можем выбрать значение x, и прямая линия покажет среднее значение y при различных значениях x. Как видите, каждый элемент x имеет разное среднее значение.

Параметр σ представляет собой дисперсию или изменчивость точек данных вокруг нашей линии регрессии. Другими словами, он измеряет, насколько близко фактические точки данных следуют прогнозируемой линии. Если точки данных широко разбросаны по линии, значение σ будет большим. И наоборот, если точки данных плотно сгруппированы вокруг линии, значение σ будет небольшим.

Применение модели к реальным данным:

Когда у нас есть вопрос и предложенная линейная модель для описания взаимосвязи между предикторами и переменными отклика, следующим шагом будет сбор реальных данных. Эти данные помогут нам оценить параметры модели, включая точку пересечения (β₀), наклон (β₁) и стандартное отклонение (σ).

После оценки этих параметров с использованием собранных данных мы можем создать расчетное модельное уравнение. Это уравнение позволяет нам делать выводы и прогнозы относительно более широкой совокупности на основе данных нашей выборки.

Таким образом, простая линейная регрессия — это мощный и простой для понимания инструмент для изучения взаимосвязи между двумя переменными. Следуя этим шагам, вы можете применить этот метод к своим собственным данным, раскрывая идеи и делая прогнозы о явлениях реального мира.

Надеюсь, мне удалось сделать линейную регрессию немного понятнее. Эти примеры и рисунки взяты из Dr. Карен Буро и Введение в линейный регрессионный анализ.