Отрицательная потеря вероятности журнала: почему мы используем ее для двоичной классификации?

Получение функции стоимости для двоичной классификации.

В этом посте я хочу затронуть тему того, как мы придумываем функции стоимости для вероятностных моделей, таких как линейная регрессия.

В этом посте я намерен предоставить новичкам лучшее понимание функций затрат - что они на самом деле измеряют и как вы можете придумать свою функцию затрат при любом распределении данных.

** Примечание **. Хотя я сосредоточусь только на отрицательной вероятности потери журнала, концепции, использованные в этом посте, можно использовать для получения функции стоимости для любого распределения данных.

Используемые обозначения

(X, Y) - установка даты

2. θ - Параметры модели

3. h (X) - функция гипотезы

Предпосылка

Знакомство с Бернулли Дистрибьюшн.

Допущения логистической регрессии

Прежде чем мы сможем даже начать оценивать параметры нашей модели как хорошие или плохие, мы должны знать предположения, которые мы сделали при разработке нашей модели. Это предположения, которые мы делаем при разработке любой модели логистической регрессии:

y (i) | x (i); theta ~ Бернулли (Φ), где Φ = h (x (i))
Независимые переменные X являются i.i.d (независимо и идентично распределенными), то есть один обучающий пример не влияет на другие.

Что мы пытаемся приблизить?

Мы предполагаем, что это некий стохастический процесс из реального мира, который приводит к генерации наших данных. Используя нашу модель логистической регрессии, мы пытаемся максимально приблизиться к этому реальному процессу, поэтому нам нужно найти значение θ, которое максимизирует вероятность нашего набора данных.

Вероятность θ

Предположим, у нас есть конкретное значение θ. Вероятность θ - это мера того, насколько хорошо данные поддерживают это конкретное значение θ. Проще говоря, вероятность получения определенного значения θ - это вероятность того, что наша модель даст истинные значения Y в качестве выходных данных при задании X в качестве входных данных.

Для логистической регрессии

Вероятностная функция масс распределения Бернулли,

Используя приведенные выше результаты, мы можем вычислить логарифмическую вероятность θ (мы используем журнал, поскольку он упрощает задачу оптимизации) -

Оценка максимального правдоподобия

В статистике оценка максимального правдоподобия - это способ найти наилучшие возможные параметры, которые делают наблюдаемые данные наиболее вероятными. Это делается путем нахождения параметров θ, которые максимизируют функцию правдоподобия.

Поскольку мы хотим, чтобы наша функция потерь была мерой того, насколько плоха наша модель, мы определяем функцию потерь как -l (θ).

Теперь вы можете увидеть, как мы сводим к минимуму потерю вероятности отрицательного журнала, пытаясь найти наилучшие параметры для нашей модели логистической регрессии.

Отрицательная потеря вероятности журнала: почему мы используем ее для двоичной классификации?