Каждый, кто зарабатывает деньги, следит за своими заработками и расходами, чтобы узнать, сколько они потратили за весь месяц, и мы все согласны с тем, что это хорошая привычка отслеживать, но некоторые люди оценивают свои расходы в течение месяца. первый день, и если денег недостаточно, они должны потратить их из своих сбережений. Точно так же в науке о данных специалисты по обработке данных должны проверять свой алгоритм, используя различные параметры производительности, чтобы иметь раннее указание на проблему или сбой до того, как они возникнут. Используя параметр производительности, можно узнать о производительности модели, а также это более простой способ представить ее другим людям. Итак, в этом блоге мы обсудим различные типы параметров производительности, используемые для оценки линейной регрессии.

Что такое линейная регрессия?

Это один из очень простых и легких алгоритмов, который работает с регрессией. Он показывает взаимосвязь между непрерывными переменными. Он показывает линейную зависимость между независимой переменной (ось X) и зависимой переменной (ось Y).

Есть 3 основных показателя для оценки модели в регрессии:

1. R-квадрат или скорректированный R-квадрат

2. Среднеквадратичная ошибка (MSE) / Среднеквадратическая ошибка (RMSE)

3. Средняя абсолютная ошибка (MAE)

Квадрат R / Скорректированный квадрат R:

Он измеряет, насколько изменчивость зависимых переменных может быть объяснена моделью. Это квадрат коэффициента корреляции (R), поэтому он называется R-квадрат.

R Square вычисляется как сумма квадратов ошибки предсказания, деленная на общую сумму квадратов, которые заменяют вычисленное предсказание средним. R Квадратное значение находится в диапазоне от 0 до 1, а большее значение указывает на лучшее соответствие между прогнозируемым и фактическим значением. R-квадрат - хороший способ определить, насколько хорошо модель соответствует зависимым переменным. Однако при этом не учитывается проблема переобучения. Если ваша регрессионная модель имеет много независимых переменных, потому что модель слишком сложна, она может очень хорошо соответствовать обучающим данным, но плохо работать с данными тестирования.

Вот почему вводится скорректированный квадрат R, потому что он будет наказывать дополнительные независимые переменные, добавленные в модель, и корректировать метрику, чтобы предотвратить проблемы с переобучением.

Проблемы с R-квадрат:

R-квадрат связан с внутренней проблемой - дополнительные входные переменные заставят R-квадрат оставаться неизменным или увеличиваться (это связано с тем, как R-квадрат вычисляется математически). Следовательно, даже если дополнительные входные переменные не связаны с выходными переменными, R-квадрат будет увеличиваться.

Среднеквадратичная ошибка (MSE) / Среднеквадратическая ошибка (RMSE):

Среднеквадратическая ошибка - это абсолютная мера качества соответствия. MSE вычисляется как сумма квадрата ошибки прогнозирования, которая представляет собой реальный результат минус прогнозируемый результат, а затем делится на количество точек данных. Он дает вам абсолютное число того, насколько ваши прогнозируемые результаты отклоняются от фактического числа.

Вы не можете интерпретировать много идей из одного результата, но он дает вам реальное число для сравнения с результатами других моделей и помогает выбрать лучшую модель регрессии.

Среднеквадратичная ошибка (RMSE) - это квадратный корень из MSE. Он используется чаще, чем MSE, потому что, во-первых, иногда значения MSE могут быть слишком большими, чтобы их было легко сравнить. Во-вторых, MSE вычисляется квадратом ошибки, и, таким образом, квадратный корень возвращает его к тому же уровню ошибки прогнозирования и упрощает интерпретацию.

Средняя абсолютная ошибка (MAE):

Это похоже на среднеквадратическую ошибку (MSE). Однако вместо суммы квадрата ошибки в MSE MAE берет сумму абсолютного значения ошибки.

По сравнению с MSE или RMSE, MAE является более прямым представлением суммы ошибок. MSE дает большее наказание за большие ошибки предсказания, возводя их в квадрат, в то время как MAE обрабатывает все ошибки одинаково.

Теперь давайте рассмотрим пример, чтобы понять все эти показатели:

Возьмем две разные задачи моделирования:

а. Прогнозирование спроса на товары ритейлера.

б. Построение статистической модели температуры устройства регулятора электростанции.

В первом случае ошибка масштабируется линейно. Если модель прогнозирует, что будет продано на 10 единиц меньше, чем на самом деле, то розничный торговец теряет прибыль от этих 10 единиц. Если модель предсказывает более высокий спрос, то розничный торговец может обнаружить, что есть некоторые избыточные запасы, но если розничный торговец находится в области, где товары не имеют срока годности (например, электроника), тогда это не имеет большого значения.

Во втором сценарии у нас есть контроллер, который, как мы знаем, может выйти из строя при слишком высокой температуре. В этом случае ошибка сильно нелинейна. Небольшие отклонения от прогнозируемой температуры не важны, но если модель сделает 1 большой прогноз, то вся система может столкнуться с катастрофическим отказом.

Следовательно, RMSE лучше подходит для второго сценария, тогда как MAE лучше подходит для первого.

Теперь давайте вычислим среднюю абсолютную ошибку:

Итак, сначала нам нужно найти абсолютную разницу между прогнозируемым значением и фактическим значением.

А теперь находим среднее значение ошибки

Среднее = (Сумма абсолютной ошибки) / (Общее наблюдение)

= 22 / 12

= 1.833333333

А теперь вычислим среднеквадратическую ошибку:

Здесь нам нужно найти ошибку в квадрате

Теперь мы вычисляем среднее значение квадратичной ошибки:

Среднее значение = (сумма квадратов ошибок) / (общее количество наблюдений)

= 56/12

= 4.66666667

Из приведенного выше примера мы можем наблюдать следующее.

1. Поскольку прогнозируемые значения могут быть меньше или больше фактических значений, простая сумма разностей может быть равна нулю. Это может привести к ложной интерпретации того, что прогноз точен.

2. Когда мы возьмем квадрат, все ошибки будут положительными, а среднее положительное, что указывает на некоторую разницу в оценках и фактических данных. Более низкое среднее значение указывает на то, что прогноз ближе к факту.

3. Все ошибки в приведенном выше примере находятся в диапазоне от 0 до 2, за исключением 1, который равен 5. По мере того, как мы возводим его в квадрат, разница между этим и другими квадратами увеличивается. И это единственное высокое значение приводит к более высокому среднему значению. Таким образом, на MSE влияют большие отклоняющиеся от нормы или выбросы.

Теперь мы вычисляем среднеквадратическую ошибку для заданных данных:

Здесь у нас есть процесс как среднеквадратичная ошибка, единственная дополнительная часть, которую нужно выполнить, - это квадратный корень из среднего.

Среднее значение, рассчитанное нами выше, составляет 4,6666667. Таким образом, квадратный корень из среднего будет = 2,1602.

Теперь мы продолжим и вычислим R² для данных;

Сначала мы вычисляем квадрат разницы между прогнозируемыми и фактическими значениями.

Сумма квадратов ошибок = 56

Теперь мы вычисляем квадрат разницы между фактическим и средним фактическими значениями.

Среднее значение фактических значений = (сумма фактических значений) / (общее количество наблюдений)

= 616/12

= 51.333333

Сумма этих значений = 602.6666667

Теперь мы знаем формулу для R в квадрате = 1 - (сумма квадратов ошибок) / (сумма квадратов разницы)

R квадрат = 1 - (51,333333) / (602,6666667)

= 1–0.085177

= 0.91482

Реализация Python с использованием sklearn и формулы: