Введение

R² (читай: R-квадрат) — это обозначение, используемое для обозначения коэффициента детерминации. Это широко используемый показатель для измерения качества соответствия модели регрессии — насколько хорошо линия регрессии оценивает зависимую переменную с учетом набора наблюдений. Это также одна из метрик, обсуждаемых на вводных уроках по линейной регрессии.

По моему опыту преподавания вводных курсов по статистике, его обычно вводят вместе с коэффициентом корреляции Пирсона, еще одним важным показателем в линейном регрессионном анализе. Коэффициент корреляции (Пирсона) обозначается как r, значение варьируется от -1 до +1. Это значение дает представление как о силе, так и о направлении линейной зависимости между двумя переменными.

Коэффициент детерминации иногда вводится в простом линейном регрессионном анализе как квадрат значения корреляции Пирсона. На начальном уровне интуитивно понятно, что коэффициент детерминации обозначается как R². Также естественно понять, почему значение R² будет находиться в диапазоне от 0 до 1. R² даже интерпретируется как «доля вариации зависимой переменной, которая может быть объяснено независимыми переменными в регрессионной модели». Пропорции, как и вероятность, понимаются как числа от 0 до 1 (включительно) и могут быть выражены в процентах.

Как же тогда R² может быть отрицательным? Это похоже на математическую невозможность, учитывая обсуждение до сих пор.

411 (все идеальные квадраты, кстати…)

Хотя это может показаться нелогичным, важно знать, что в некоторых случаях значение R² будет отрицательным. Я попытаюсь убедить вас, как это может произойти, не слишком углубляясь в математику.

Возможно, самой большой причиной путаницы является представление на вводных курсах R² как квадрата коэффициента корреляции Пирсона. Хотя это может быть верно для более простых вводных задач регрессии, строго говоря, это не фактическое определение R². Давайте начнем здесь.

Коэффициент детерминации целесообразнее рассчитывать по следующей формуле: