CRPS — функция оценки для байесовских моделей машинного обучения.

Непрерывная ранжированная вероятностная оценка — это статистическая метрика, которая сравнивает прогнозы распределения с достоверными значениями.

Важной частью рабочего процесса машинного обучения является оценка модели. Сам процесс можно считать общеизвестным: разделите данные на обучающие и тестовые наборы, обучите модель на обучающем наборе и оцените ее производительность на тестовом наборе с помощью функции оценки.

Функция оценки (или метрика) представляет собой отображение наземных значений истинности и их предсказаний в одно и сопоставимое значение [1]. Например, для непрерывных прогнозов можно использовать функции оценки, такие как RMSE, MAE, MAPE или R-квадрат. Но что, если прогноз представляет собой не точечную оценку, а распределение?

В байесовском машинном обучении прогнозы часто представляют собой не точечные оценки, а распределения значений. Например, прогнозом могут быть оцениваемые параметры распределения или, в непараметрическом случае, массив выборок из метода MCMC.

В этих случаях традиционные оценочные функции не подходят для статистического плана; можно объединить предсказанные распределения в их средние или медианные значения, но это приведет к большой потере информации о дисперсии и форме предсказанного распределения.

Непрерывная ранжированная вероятностная оценка

CRPS — непрерывная ранжированная вероятностная оценка — это функция оценки, которая сравнивает одно значение истинности с кумулятивной функцией распределения (CDF):

Впервые представленный в 70-х годах [4] и в основном используемый в прогнозах погоды, он в настоящее время вновь привлекает внимание в литературе и промышленности [1] [6]. Его можно использовать в качестве метрики для оценки производительности модели, когда целевая переменная является непрерывной, а модель предсказывает целевое распределение; Примеры включают модели байесовской регрессии или байесовских временных рядов [5].

Тот факт, что теоретическое определение включает CDF, делает CRPS полезным как для параметрических, так и для непараметрических прогнозов: для многих распределений существует аналитическое выражение для CRPS [3], а для непараметрических прогнозов можно использовать CRPS с Эмпирическая кумулятивная функция распределения (eCDF).

После вычисления CRPS для каждого наблюдения в нашем тестовом наборе нам остается объединить результаты в одно значение. Подобно RMSE и MAE, мы будем агрегировать их, используя (возможно, взвешенное) среднее значение:

Интуиция

Основная проблема сравнения одного значения с распределением заключается в том, как перевести это единственное значение в область распределений. CRPS справляется с этим, переводя наземное истинное значение в вырожденное распределение с помощью индикаторной функции. Например, если наше основное истинное значение равно 7, мы можем перевести его с помощью:

Функция индикатора – это действующий CDF, отвечающий всем требованиям CDF. Теперь нам осталось сравнить предсказанное распределение с вырожденным распределением основного значения истинности. Ясно, что мы хотим, чтобы прогнозируемое распределение было как можно ближе к истинному; это выражается математически путем измерения (квадрата) площади, захваченной между этими двумя CDF:

Отношение к МАЭ

CRPS тесно связан с известным MAE (средняя абсолютная ошибка). Если мы возьмем точечный прогноз, обработаем его как вырожденный CDF и введем его в уравнение CRPS, мы получим:

Таким образом, если прогнозируемое распределение является вырожденным распределением (например, точечной оценкой), CRPS сводится к MAE. Это помогает получить еще одно интуитивное представление о CRPS: его можно рассматривать как обобщение MAE в прогнозах распределения: MAE — это частный случай CRPS, когда предсказанное распределение вырожденное.

Эмпирическая оценка

Когда предсказание модели представляет собой параметрическое распределение (например, модель предсказывает параметры распределения), CRPS имеет аналитическое выражение для некоторых общих распределений [3]. Например, если модель предсказывает параметры μ и σ нормального распределения, CRPS можно рассчитать с помощью:

Аналитические решения известны для таких распределений, как Beta, Gamma, Logistic, Log-Normal и других [3].

Когда прогноз непараметрический, или, точнее, прогноз представляет собой массив симуляций, вычисление интеграла по eCDF является сложной задачей. Однако CRPS также может быть аналитически выражен:

Где X, X’ независимо и одинаково распределяются в соответствии с F. Эти выражения, хотя и требуют больших вычислительных ресурсов, их проще оценить:

Вы можете посмотреть пример регрессии байесовского хребта в блокноте Jupyter здесь, где я демонстрирую использование как параметрического, так и непараметрического CRPS.

Краткое содержание

Непрерывная ранжированная оценка вероятности (CRPS) — это функция оценки, которая сравнивает одно истинное значение с его прогнозируемым распределением. Это свойство делает его актуальным для байесовского машинного обучения, где модели обычно выводят прогнозы распределения, а не точечные оценки. Его можно рассматривать как обобщение хорошо известного MAE для прогнозов распределения.

Он имеет аналитические выражения для параметрических прогнозов и может быть легко рассчитан для непараметрических прогнозов. В целом CRPS становится новым стандартным способом оценки производительности байесовских моделей машинного обучения с непрерывной целью.