Полное руководство по метрикам производительности модели классификации в машинном обучении

Показатели производительности являются неотъемлемой частью всех конвейеров машинного обучения. В иерархии оценка модели происходит после предварительной обработки, разработки функций, выбора модели и, конечно же, реализации модели и получения некоторых результатов от модели. Все модели машинного обучения, начиная с простейшей линейной регрессии и заканчивая сложными алгоритмами глубокого обучения, такими как BERT, нуждаются в метрике для оценки производительности. Он дает количественную оценку модели и ставит поверх нее окончательное число, а также сообщает вам, добились ли вы прогресса или нет. В конечном итоге это число будет ключевым фактором, определяющим, можно ли развернуть модель в производственной среде или нет.

Существует множество показателей производительности для задач классификации и регрессии. Определение правильных показателей для оценки производительности вашей модели так же важно, как и построение модели. В этой статье мы обсудим некоторые из часто используемых показателей для классификации и регрессии.

Показатели классификации

Проблемы классификации будут иметь дискретные выходные данные, и поэтому нам нужны метрики, которые могут сравнивать правильно помеченные выходные данные в каждом классе с неправильными или с общим количеством точек данных.

Матрица путаницы

Матрица путаницы, также известная как матрица ошибок в терминологии неспециалиста, является одним из самых простых и запутанных KPI, используемых для сравнения истинности с результатами модели. Это матрица со строками и столбцами, представляющими фактические и прогнозируемые результаты. Важным замечанием здесь является то, что матрица путаницы не совсем является матрицей производительности, тогда как почти все показатели производительности основаны на матрице путаницы.

Типичная матрица путаницы будет иметь четыре квадранта:

Чтобы лучше понять концепцию, давайте рассмотрим следующий пример. давайте предположим, что наша нулевая гипотеза H⁰ состоит в том, что «электронная почта является спамом».

True Positive (TP): обозначает случаи, когда фактический класс является положительным, и модель правильно предсказывает его как положительный.
Ложный положительный результат (FP): означает случаи, когда фактический класс отрицательный, но модель неправильно предсказывает его как положительный. Это представляет собой ошибку типа I в статистике.
True Negative (TN): означает случаи, когда фактический класс является отрицательным, и модель правильно предсказывает его как отрицательное.
Ложноотрицательный (FN): означает случаи, когда фактический класс является положительным, но модель неправильно предсказывает его как отрицательный. Это представляет собой ошибку второго рода в статистике.

2. Точность

Это самая простая метрика для понимания и реализации. Он определяется как отношение числа правильно классифицированных образцов к общему количеству образцов.

Точность является хорошей мерой для использования, когда у вас есть почти сбалансированный набор данных. например У вас есть модель, которая классифицирует кошек и собак на основе определенных заданных признаков, и ваш набор данных содержит 55 % изображений собак и 45 % изображений кошек.

Никогда не используйте метрики точности, если ваш набор данных сильно несбалансирован. например В приведенном выше примере обнаружения спама допустим, что из 100 образцов только 10 являются спамом, а остальные не являются спамом. и если наша модель вслепую прогнозирует все как не спам, все равно наша метрика точности будет 90%, даже несмотря на то, что наша модель ужасна в прогнозировании фактического спама.

3. Точность

Точность — это отношение истинных положительных результатов к общему количеству предсказанных положительных результатов. Значение точности лежит между нулем и единицей. (0 ‹ П ‹ 1)

Precision фокусируется на ошибках типа I. Высокая оценка точности указывает на то, что наша модель способна правильно маркировать спам. Низкая оценка точности указывает на то, что модель настроена неправильно или имеется много ложных срабатываний.

4. Отзыв/Чувствительность

Припоминание — это отношение истинных срабатываний ко всем общим фактическим срабатываниям или основной правде.

Точность или полнота: когда использовать?

Точность оценивает модель в отношении ложных срабатываний, тогда как отзыв оценивает модель в отношении ложноотрицательных результатов. Таким образом, выбор точных метрик для вашей модели зависит от вашей постановки задачи/варианта использования.

По сути, для минимизации ложноотрицательных результатов используйте отзыв, и если вы хотите свести к минимуму ложные срабатывания, вам следует стремиться приблизить точность к 1. Компромисс между точностью и отзывом очень важен, и для построения сбалансированной модели вы должны сосредоточиться на максимизации обоих точность и запоминаемость.

5. Конкретность

Специфичность — это отношение предсказанных истинных отрицательных результатов к общему количеству истинных отрицательных результатов.

Специфика противоположна отзыву. Специфичность часто используется в сочетании с другими показателями производительности, такими как чувствительность (также известная как полнота или доля истинно положительных результатов), для оценки общей производительности модели классификации. В то время как специфичность измеряет способность правильно идентифицировать отрицательные образцы. Вместе они обеспечивают всестороннюю оценку эффективности модели как при положительных, так и при отрицательных результатах прогнозирования.

6. Оценка F1

Оценка F1 дается как единая оценка, а не рассчитывается как полнота, так и точность. Но использование простого среднего/среднего арифметического не будет служить цели, поскольку обе метрики передают разные возможности модели (модель, имеющая P = 75% и Recall = 5%, даст среднее арифметическое 40%, что дает ужасное представление о модель).

и, следовательно, оценка F1 определяется как среднее гармоническое точности и полноты, поскольку она придает больший вес меньшим значениям в наборе, приближая общее среднее значение к меньшим значениям.

Высокая F1 означает, что у нас высокая точность и полнота. При низком F1 мы не сможем понять, имеет ли модель низкую точность или полноту, а также страдает ли модель ошибкой типа I или типа II.

7. Зона рабочих характеристик приемника (AUROC)

Более известный как AUC — кривая/оценка ROC. Кривая AUROC используется для выбора наиболее подходящих моделей классификации на основе их характеристик в отношении частоты ложноположительных результатов (FPR) и частоты истинно положительных результатов (TPR).

Подводя итог, чем выше TPR, тем выше будет количество положительных точек данных, которые классифицируются правильно.

Понизьте FPR, отрицательные точки данных, которые ошибочно классифицируются как положительные, будут низкими.

Чтобы нарисовать AUC — ROC, мы вычислим TPR и FPR при различных пороговых значениях и нанесем их на график.

На приведенном выше графике разные цветные кривые соответствуют разным моделям.

Красная пунктирная линия соответствует случайному классификатору/классификатору без навыков, который случайным образом классифицирует точки данных без какой-либо логики/разума.
Хорошими моделями являются модели, у которых кривая ROC находится выше пунктирной красной линии.

3. Худшие модели — это модели, у которых кривая ROC находится ниже пунктирной красной линии.

Идеальный порог принятия решения — это тот, который приводит к очень высокому TPR (близкому к 1) и очень низкому FPR (близкому к 0).

Обобщить,

AUC = 1 указывает, что модель прекрасно способна правильно различать положительные и отрицательные стороны.
AUC > 0,5 указывает на то, что модель способна правильно классифицировать положительные результаты или модель способна обнаруживать больше TP (истинно положительных результатов) и TN (истинно отрицательных результатов), чем FN (ложноотрицательных результатов) и FP (ложноположительных результатов).
AUC = 0,5 указывает, что модель случайным образом предсказывает классы.

Кривая AUC ROC обычно используется для сравнения производительности различных классификаторов.

8. Кросс-энтропия

Кросс-энтропия — это мера разницы между двумя распределениями вероятностей для данной случайной величины или набора событий. Обычно он используется для определения лучшего классификатора из группы классификаторов, который дает вероятностные результаты.

Допустим, модель предсказала вероятность для точек данных, попадающих в каждый класс, как 0,5, 0,8 и 0,7, а другая модель предсказала 0,4, 0,6 и 0,9 в качестве вероятностей. Чтобы найти лучшую из этих двух моделей, мы можем перемножить вероятности и получить окончательное число, а также выбрать модель с наибольшим значением.

Но проблема с описанным выше подходом заключается в том, что по мере увеличения точек данных произведение вероятностей становится очень меньшим и не может быть правильно интерпретировано.

Следовательно, перекрестная энтропия определяется как сумма отрицательных логарифмов вероятностей.

для двух вышеуказанных моделей,

перекрестная энтропия 1 = -ln(0,5) -ln(0,8) -ln(0,7) = 1,2729

перекрестная энтропия 2 = -ln(0,4) -ln(0,6) -ln(0,9) = 1,5324

Таким образом, мы можем сделать вывод, что вторая модель лучше первой модели, чем вторая, поскольку она имеет меньший показатель перекрестной энтропии (низкая перекрестная энтропия означает лучшую производительность).

И накидка на день....

Пожалуйста, прочитайте вторую часть статьи, чтобы получить представление о показателях производительности регрессии.

Полное руководство по метрикам производительности модели классификации в машинном обучении

Показатели классификации

Вопросы по теме