a. Верно + ве: если человек действительно болен раком (Фактический класс = Да), и мы правильно прогнозируем как Да, то он действительно болен рак (Прогнозируемый класс = Да)

b. Неверно -ve: если человек действительно болен раком (фактический класс = Да), и мы предсказываем неверно как Нет, то он действительно болен раком (Прогнозируемый класс = Нет)

c. Неверно + ve: если у человека нет рака (Фактический класс = Нет), и мы предполагаем, что это Да, то на самом деле он у него нет рака, но мы предсказываем, что у него рак, что неверно (Прогнозируемый класс = Да)

d. Верно -ve: Если у человека нет рака (Фактический класс = Нет), и мы правильно предсказываем как Нет, это означает мы прогнозируем правильно, поскольку у человека нет рака (Прогнозируемый класс = Нет)

Метрики замешательства используются для оценки эффективности задачи классификации.

Мы можем рассчитать точность следующим образом из матрицы ошибок:

Нам всегда нужно, чтобы процентные значения «a» и «d» были максимальными, а процент «b» и «c» должен быть минимальным, чтобы модель была точной или мы могли сказать, что точность высокая.

Мы также можем назвать точность как = общее количество правильных прогнозов / общее количество наблюдений.

Общее количество правильных прогнозов = a + d

Общее количество наблюдений = a + b + c + d

Точность всегда рассчитывается в процентах (от 0% до 100%) и в долях (от 0 до 1). Ближе к 1 с точки зрения дроби считается лучшей моделью.

Однако есть некоторые ограничения точности:

Ограничения точности

Рассмотрим задачу 2-го класса (0 и 1)

Предположим, у нас есть следующий сценарий:

Количество примеров класса 0 = 9990

Количество примеров класса 1 = 10

Если модель предсказывает, что все будет классом 0, то

Точность 9990 + 0/10000 = 99,9%

Точность в этом случае будет вводить в заблуждение, потому что модель не обнаруживает ни одного примера класса 1.

В этом случае мы получаем точность 99,9%, но мы не можем оценить производительность модели на основе точности, потому что мы не могли предсказать примеры класса 1.

Если мы внимательно посмотрим, доля примеров класса 0 высока, что составляет 9990, а доля примеров класса 1 очень мала, что составляет 10 для задачи 2 класса.

Следовательно, в приведенном выше случае точность не будет правильным показателем для оценки производительности модели.

В этом случае нам нужно проверить ROC и т. Д.

Матрица затрат похожа на матрицу путаницы, за исключением того факта, что мы вычисляем стоимость неправильного прогноза или правильного прогноза.

Пример: давайте возьмем пример модели, которая используется для прогнозирования того, у кого есть рак или нет (см. Ниже).

В случае (1): предполагается, что у кого-то рак не будет, а в случае (2) у кого-то не будет рака.

Как вы думаете, какова цена ошибочных прогнозов?

Очевидно, что в обоих случаях будут задействованы расходы

Случай (1) будет более дорогостоящим по сравнению со случаем (2): поскольку тот, у кого рак, по прогнозам, не болеет раком, ему не будут назначены лекарства от рака, следовательно, вероятность того, что он / она умрет, выше.

Принимая во внимание, что в случае (2) у кого-то, не болеющего раком, прогнозируется наличие рака, ему / ей будет назначено лечение / лекарства от рака, но в течение определенного периода времени он будет выписан из больницы, как только мы узнаем, что у него нет рака. .

Таким образом, в обоих случаях задействованы затраты, однако случай (1) будет более дорогостоящим по сравнению со случаем (2), потому что высока вероятность того, что пациент в случае (1) может умереть.

Так что не все неверные прогнозы будут иметь одинаковую цену. С этим нужно иметь дело с некоторым весом.

Есть две модели, а именно модель M1 и M2, обе из которых имеют правильные прогнозы и неправильные прогнозы.

Если мы сравним обе модели и проверим их точность. Точность для модели M2 выше по сравнению с моделью M1, однако стоимость модели M2 выше по сравнению с моделью M1.

Так что это зависит от того, с какой постановкой проблемы мы сталкиваемся.

Если мы сосредоточимся на точности, то мы выберем модель M2 (в этом случае нам нужно пойти на компромисс по стоимости), однако, если мы сосредоточимся на стоимости, мы выберем модель M1 (в этом случае нам нужно пойти на компромисс в отношении стоимости). точность).

Другие чувствительные к стоимости меры:

Точность (p) = a / a + c

Напомним (r) = a / a + b

F-мера (F) = 2a / 2a + b + c

Больше meausers:

Истинно положительный показатель (TPR) (Чувствительность)

TPR = a / a + b (чувствительность)

Истинно отрицательная скорость (TNR) (специфичность)

TNR = d / c + d (специфичность)

Уровень ложных срабатываний (FPR)

FPR = c / c + d

Ложноотрицательная ставка (FNR)

FNR = b / a + b