Регрессия: искусство прогнозного моделирования

Давайте изучим показатели оценки для классификации и регрессии

«Вода, вода всюду, и все доски сжимались,

Вода везде, но ни капли для питья »

Время веселья!

Давайте изменим некоторые слова в строках выше 💡

«ML, ML везде и все другие технологии были заменены,

ML, ML везде, «from sklearn.import__», просто вырезать, скопировать и вставить »

Звучит забавно, не правда ли?

Что ж, нет никаких сомнений в том, что сегодня машинное обучение стало одной из самых важных технологий, без которой нам становится даже невозможно представить наш мир. Но прежде чем углубиться в эту сеть, мы должны знать некоторые из основных, но важных аспектов машинного обучения. Один из них предполагает использование правильных показателей оценки.

Хотите повысить производительность своей модели?

Давайте изучим ПОКАЗАТЕЛИ ОЦЕНКИ.

Метрики оценки - это меры, на основе которых мы проверяем, как работает наша модель. Просто построение прогнозной модели - не наш мотив.

Хороший аналитик всегда будет следить за высокой точностью невидимых данных. В конце концов, в реальных проектах требуется больше анализа данных, чем построение моделей.

Ха-ха! Не беспокойтесь, в этой статье подробно описаны оценочные показатели для регрессии, поэтому вам не придется беспокоиться о производительности вашей модели.

1. MSE: среднеквадратичная ошибка

Хотя само название говорит о том, что это злой характер, но не волнуйтесь, он вам очень поможет.

Хорошо, давайте теперь разберемся, что такое MSE:

«В статистике: среднеквадратичная ошибка (MSE) или среднеквадратическое отклонение (MSD) оценщика ( процедуры оценки ненаблюдаемой величины) измеряет среднее квадратов ошибок, то есть среднюю квадратическую разницу между оценочными значениями и фактическими значениями ».

Проще говоря, это квадрат разницы между фактическим и прогнозируемым значением, деленный на общее количество наблюдений.

Теперь, когда мы знаем, что такое MSE, давайте разберемся, как он помогает в оптимизации нашей модели?

MSE дает нам представление о том, насколько наши прогнозы отличаются от фактических результатов. Чем ниже MSE, тем лучше наша модель. Хотя это хорошая мера, которую следует учитывать, но в тех случаях, когда мы не выполняем масштабирование ни для наших обучающих функций, ни для целевых функций, это может быть большое значение, отражающее плохую модель. Вместо MSE мы можем использовать RMSE, которая является квадратным корнем из MSE и дает нам лучшее представление о производительности модели.

MSE можно вычислить в Python с помощью пакета sklearn.

из sklearn.metrics import mean_squared_error

импорт математики

print (mean_squared_error (Y_test, Y_predicted))

print (math.sqrt (mean_squared_error (Y_test, Y_predicted)))

2. MAE: средняя абсолютная ошибка

MAE похожа на MSE, только вместо возведения ошибки в квадрат мы берем абсолютную разницу между прогнозируемым значением и фактическим значением, деленную на общее количество наблюдений.

А теперь позвольте мне задать вам вопрос. Если вы работали с линейной регрессией, вы должны знать, что в функции стоимости мы берем квадрат разницы, а не абсолютную разницу, даже зная, что возведение разницы в квадрат может привести к большому значению. Дайте минутку и подумайте об этом.

А теперь позвольте мне рассказать вам секрет!

В то время, когда был разработан алгоритм линейной регрессии, математики не знали, как найти производную функции модуля (рассмотрим MAE). А поскольку градиентный спуск требовал нахождения производной функции стоимости (для нахождения минимумов), тогда MAE нельзя было использовать. Но сегодня вы можете использовать формулу MAE или формулу MSE в функции затрат для определения минимумов.

из sklearn.metrics import mean_absolute_error

print (mean_absolute_error (Y_test, Y_predicted))

3. R- квадрат

R-квадрат считается наиболее эффективным показателем для модели регрессии. Если сформулировать просто, R-квадрат - это квадрат коэффициента корреляции «r», значение которого всегда находится между 0 и 1. В то время как «r» объясняет связь между двумя переменными (независимыми и зависимыми), r-квадрат объясняет пропорцию дисперсия для зависимой переменной, которая объясняется независимой переменной или переменными.

Допустим, значение r-квадрата равно 0,6, это объясняет, что более 50% вариации объясняется независимым признаком.

R-квадрат рассчитывается по следующей формуле:

Большое значение r-квадрата означает хорошее соответствие регрессионной модели.

Однако r-квадрат может не работать в случае переобучения. Потому что может быть много независимых функций, которые сделают модель лучше всего на обучающих данных, но плохо на тестовых данных. Чтобы решить эту проблему, мы используем скорректированный r-квадрат вместо r-квадрата. Скорректированный r-квадрат учитывает все независимые характеристики и дает результат на этой основе.

из sklearn.metrics импортировать r2_score

print (r2_score (y_true, y_pred))

ЗАКЛЮЧЕНИЕ

Не верьте слепо только одному показателю и не думайте, что ваша модель работает хорошо. Всегда лучше учитывать скорректированный r-квадрат и MSE, чтобы увидеть, как модель работает с невидимыми данными. И даже прежде чем создавать какую-либо модель и проверять ее работоспособность, всегда сначала наблюдайте за своими данными и выполняйте тщательный анализ данных. Если все сделано идеально, то считайте, что половина вашей проблемы решена. Всего наилучшего!