выход журнала потерь больше 1

Я подготовил несколько моделей бинарной классификации документов в сфере мошенничества. Я рассчитал потерю бревна для всех моделей. Я думал, что это, по сути, измерение достоверности прогнозов и что потери журнала должны быть в диапазоне [0-1]. Я считаю, что это важный критерий классификации, когда результат - определение класса недостаточен для целей оценки. Таким образом, если две модели имеют довольно близкое соответствие, отзыв и точность, но одна имеет более низкую функцию логарифмических потерь, ее следует выбрать, учитывая, что в процессе принятия решения нет других параметров / показателей (таких как время, стоимость).

Потеря журнала для дерева решений составляет 1,57, для всех других моделей она находится в диапазоне 0-1. Как мне интерпретировать эту оценку?


person OAK    schedule 26.01.2016    source источник


Ответы (1)


Важно помнить, что потеря журнала не имеет верхнего предела. Потеря журнала существует в диапазоне [0,)

В Kaggle мы можем найти формулу потери журнала.

Потеря журнала

В котором y ij равно 1 для правильного класса и 0 для других классов и p ij - вероятность, присвоенная этому классу.

Если мы посмотрим на случай, когда средняя потеря журнала превышает 1, это когда log (p ij) ‹-1, когда i - истинный класс. Это означает, что прогнозируемая вероятность для данного класса будет меньше exp (-1) или около 0,368. Таким образом, потери в журнале больше единицы можно ожидать в том случае, если ваша модель дает оценку вероятности менее 36% для фактического класса.

Мы также можем увидеть это, построив логарифмическую потерю с учетом различных оценок вероятности.

Кривая потерь журнала

person David Maust    schedule 26.01.2016
comment
очень хороший ответ, особенно картинка - person Catbuilts; 10.10.2018