Когда я работал над несколькими наборами данных, я был сбит с толку, какая метрика является точной, чтобы дать мне ответ на мою мысль «Как мне получить максимально правильную модель?»
Увы, после внедрения нескольких наборов данных я получил ответ… ни одна из метрик не является хорошей или плохой для выбора модели… все зависит от того, «какую бизнес-задачу вы пытаетесь решить с помощью модели?»
Чтобы понять приведенное выше утверждение, давайте углубимся.
Матрица путаницы показывает для каждого класса количество (или процент) данных, которые правильно классифицированы для этого класса.
Метрики для машинного обучения:
· Точность
· Точность
· Отзывать
· Оценка F1
Точность
Точность = TP+TN/TP+FP+FN+TN
Это мера всех правильно идентифицированных случаев. Он чаще всего используется, когда все классы одинаково важны.
Точность может использоваться, когда распределение классов похоже.
Точность
Точность=TP/TP+FP
Где TP+FP дает общее прогнозируемое количество положительных результатов.
Точность является хорошей мерой для определения, когда стоимость ложного срабатывания высока.
Отзывать
Отзыв = ТП/ТП+FN
Где TP+FN дает общее количество фактических положительных результатов.
Отзыв должен быть метрикой модели, которую мы используем для выбора нашей лучшей модели, когда существует высокая стоимость, связанная с ложным отрицанием.
Оценка F1
Оценка F1=2(Точность*Отзыв/Точность+Отзыв)
F1 Score — лучшая мера, если нам нужен баланс между точностью и отзывом. Оценка F1 используется, когда ложноотрицательные и ложноположительные результаты имеют решающее значение.
В большинстве реальных задач классификации существует несбалансированное распределение классов, и поэтому показатель F1 является лучшим показателем для оценки нашей модели.