Когда я работал над несколькими наборами данных, я был сбит с толку, какая метрика является точной, чтобы дать мне ответ на мою мысль «Как мне получить максимально правильную модель?»

Увы, после внедрения нескольких наборов данных я получил ответ… ни одна из метрик не является хорошей или плохой для выбора модели… все зависит от того, «какую бизнес-задачу вы пытаетесь решить с помощью модели?»

Чтобы понять приведенное выше утверждение, давайте углубимся.

Матрица путаницы показывает для каждого класса количество (или процент) данных, которые правильно классифицированы для этого класса.

Метрики для машинного обучения:

· Точность

· Точность

· Отзывать

· Оценка F1

Точность

Точность = TP+TN/TP+FP+FN+TN

Это мера всех правильно идентифицированных случаев. Он чаще всего используется, когда все классы одинаково важны.

Точность может использоваться, когда распределение классов похоже.

Точность

Точность=TP/TP+FP

Где TP+FP дает общее прогнозируемое количество положительных результатов.

Точность является хорошей мерой для определения, когда стоимость ложного срабатывания высока.

Отзывать

Отзыв = ТП/ТП+FN

Где TP+FN дает общее количество фактических положительных результатов.

Отзыв должен быть метрикой модели, которую мы используем для выбора нашей лучшей модели, когда существует высокая стоимость, связанная с ложным отрицанием.

Оценка F1

Оценка F1=2(Точность*Отзыв/Точность+Отзыв)

F1 Score — лучшая мера, если нам нужен баланс между точностью и отзывом. Оценка F1 используется, когда ложноотрицательные и ложноположительные результаты имеют решающее значение.

В большинстве реальных задач классификации существует несбалансированное распределение классов, и поэтому показатель F1 является лучшим показателем для оценки нашей модели.