Непрерывная ранжированная вероятностная оценка — это статистическая метрика, которая сравнивает прогнозы распределения с достоверными значениями.
Важной частью рабочего процесса машинного обучения является оценка модели. Сам процесс можно считать общеизвестным: разделите данные на обучающие и тестовые наборы, обучите модель на обучающем наборе и оцените ее производительность на тестовом наборе с помощью функции оценки.
Функция оценки (или метрика) представляет собой отображение наземных значений истинности и их предсказаний в одно и сопоставимое значение [1]. Например, для непрерывных прогнозов можно использовать функции оценки, такие как RMSE, MAE, MAPE или R-квадрат. Но что, если прогноз представляет собой не точечную оценку, а распределение?
В байесовском машинном обучении прогнозы часто представляют собой не точечные оценки, а распределения значений. Например, прогнозом могут быть оцениваемые параметры распределения или, в непараметрическом случае, массив выборок из метода MCMC.
В этих случаях традиционные оценочные функции не подходят для статистического плана; можно объединить предсказанные распределения в их средние или медианные значения, но это приведет к большой потере информации о дисперсии и форме предсказанного распределения.
Непрерывная ранжированная вероятностная оценка
CRPS — непрерывная ранжированная вероятностная оценка — это функция оценки, которая сравнивает одно значение истинности с кумулятивной функцией распределения (CDF):
Впервые представленный в 70-х годах [4] и в основном используемый в прогнозах погоды, он в настоящее время вновь привлекает внимание в литературе и промышленности [1] [6]. Его можно использовать в качестве метрики для оценки производительности модели, когда целевая переменная является непрерывной, а модель предсказывает целевое распределение; Примеры включают модели байесовской регрессии или байесовских временных рядов [5].
Тот факт, что теоретическое определение включает CDF, делает CRPS полезным как для параметрических, так и для непараметрических прогнозов: для многих распределений существует аналитическое выражение для CRPS [3], а для непараметрических прогнозов можно использовать CRPS с Эмпирическая кумулятивная функция распределения (eCDF).
После вычисления CRPS для каждого наблюдения в нашем тестовом наборе нам остается объединить результаты в одно значение. Подобно RMSE и MAE, мы будем агрегировать их, используя (возможно, взвешенное) среднее значение:
Интуиция
Основная проблема сравнения одного значения с распределением заключается в том, как перевести это единственное значение в область распределений. CRPS справляется с этим, переводя наземное истинное значение в вырожденное распределение с помощью индикаторной функции. Например, если наше основное истинное значение равно 7, мы можем перевести его с помощью:
Функция индикатора – это действующий CDF, отвечающий всем требованиям CDF. Теперь нам осталось сравнить предсказанное распределение с вырожденным распределением основного значения истинности. Ясно, что мы хотим, чтобы прогнозируемое распределение было как можно ближе к истинному; это выражается математически путем измерения (квадрата) площади, захваченной между этими двумя CDF:
Отношение к МАЭ
CRPS тесно связан с известным MAE (средняя абсолютная ошибка). Если мы возьмем точечный прогноз, обработаем его как вырожденный CDF и введем его в уравнение CRPS, мы получим:
Таким образом, если прогнозируемое распределение является вырожденным распределением (например, точечной оценкой), CRPS сводится к MAE. Это помогает получить еще одно интуитивное представление о CRPS: его можно рассматривать как обобщение MAE в прогнозах распределения: MAE — это частный случай CRPS, когда предсказанное распределение вырожденное.
Эмпирическая оценка
Когда предсказание модели представляет собой параметрическое распределение (например, модель предсказывает параметры распределения), CRPS имеет аналитическое выражение для некоторых общих распределений [3]. Например, если модель предсказывает параметры μ и σ нормального распределения, CRPS можно рассчитать с помощью:
Аналитические решения известны для таких распределений, как Beta, Gamma, Logistic, Log-Normal и других [3].
Когда прогноз непараметрический, или, точнее, прогноз представляет собой массив симуляций, вычисление интеграла по eCDF является сложной задачей. Однако CRPS также может быть аналитически выражен:
Где X, X’ независимо и одинаково распределяются в соответствии с F. Эти выражения, хотя и требуют больших вычислительных ресурсов, их проще оценить:
Вы можете посмотреть пример регрессии байесовского хребта в блокноте Jupyter здесь, где я демонстрирую использование как параметрического, так и непараметрического CRPS.
Краткое содержание
Непрерывная ранжированная оценка вероятности (CRPS) — это функция оценки, которая сравнивает одно истинное значение с его прогнозируемым распределением. Это свойство делает его актуальным для байесовского машинного обучения, где модели обычно выводят прогнозы распределения, а не точечные оценки. Его можно рассматривать как обобщение хорошо известного MAE для прогнозов распределения.
Он имеет аналитические выражения для параметрических прогнозов и может быть легко рассчитан для непараметрических прогнозов. В целом CRPS становится новым стандартным способом оценки производительности байесовских моделей машинного обучения с непрерывной целью.
Рекомендации
- Строго правильные правила подсчета очков, прогнозирование и оценка,Gneiting & Raftery (2007 г.)
- Оценка показателя непрерывной ранжированной вероятности с ограниченной информацией и приложениями для ансамблевых прогнозов погоды, Zamo & Naveau (2017)
- Калиброванные прогнозы ансамбля с использованием лесов квантильной регрессии и выходной статистики модели ансамбля, Taillardat, Zamo & Naveau (2016)
- Правила оценки для непрерывных вероятностных распределений, Matheson & Winklers (1976)
- Распределительная регрессия и ее оценка с помощью CRPS: границы и сходимость минимаксного риска, Pic, Dombry, Naveau & Taillardat (2022)
- Реализация CRPS в Pyro-PPL, Uber Technologies, Inc.
- Внедрение CRPS в правильном скоринге, The Climate Corporation