Точность и отзывчивость - это два самых фундаментальных показателя оценки, которые находятся в наших руках.

Совершенно необходимо сравнивать свои модели друг с другом и выбирать наиболее подходящие модели при выполнении задач, связанных с классификацией. Когда вы оцениваете значения в регрессии, имеет смысл говорить об ошибке как об отклонении от реальных значений и о том, насколько далеко друг от друга были прогнозы. Но в классификации вы либо правы, либо неверны при классификации двоичной переменной. Следовательно, мы предпочитаем думать об этом с точки зрения того, сколько ложных срабатываний и ложных отрицаний имеет модель. Фактически, при оценке результатов алгоритма классификации существует несколько различных основных показателей. В этом сообщении блога я опишу показатели точности и запоминания, объясню, что делает каждый из них уникальным, и расскажу о взаимосвязи между ними.

Точность

Точность проверяет, насколько надежны прогнозы. Точность помогает ответить на следующий вопрос на примере модели, которая предсказывает, есть ли у человека определенное заболевание - сколько раз данный пациент действительно болел из всех раз модель сказала, что кто-нибудь болен этой болезнью?

Имейте в виду, что оценка высокой точности может быть немного обманчива. Например, предположим, что мы берем модель и обучаем ее на выборке из 100 000 пациентов, чтобы делать прогнозы. Эта модель оценивает, что 50 000 пациентов страдают определенным заболеванием, в то время как на самом деле только 45 000 пациентов страдают этим заболеванием. Если мы будем следовать формуле точности, которая выглядит так: «Точность = истинные положительные / прогнозируемые положительные результаты», то точность этой модели составит 90 процентов.

Теперь предположим, что мы разрабатываем вторую модель, которая просто предсказывает, когда невероятно ясно, что человек болен (очевидные признаки и симптомы). Эта модель оценивает, что из 100 000 пациентов только 40 человек во всем населении болеют, однако она верна для каждого из этих 40 случаев. Вторая модель будет иметь 100-процентную оценку точности, даже несмотря на то, что 99 960 инцидентов были упущены из виду для пациентов, которые уже болеют этим заболеванием. Таким образом, более умеренные модели могут иметь высокий показатель точности, но это не всегда означает, что они правильная модель для запуска.

Отзывать

Напоминание показывает долю каждого из классов, собранных моделью в данный момент. Следуя тому же примеру, приведенному выше, можно вспомнить, как можно спросить - среди всех людей, которых мы видели, которые действительно болели, какую часть из них наша модель точно классифицировала как больных?

Стоит помнить, что припоминание - это сложная статистика, поскольку более высокий показатель запоминания не обязательно означает более сильную модель в целом. Например, классифицируя всех без исключения пациентов, которые проходят через дверь, как больных, о которых идет речь, наша модель легко получит 100-процентную оценку отзыва. Было бы несколько ложных срабатываний, но у любого инфицированного человека все равно будет точный диагноз. Формулу отзыва можно запомнить как «Отзыв = Истинно Положительные / Фактические Всего Положительные».

Как связаны точность и отзыв

Точность и отзыв имеют противоположные отношения - если наш отзыв уменьшается, то точность повышается. Давайте обсудим это через призму нашего предыдущего примера. Поскольку они больше озабочены больными, врач, слишком увлеченный отзывом l, будет более склонен называть любого больным. Их точность будет очень плохой, поскольку они классифицируют почти всех как больных, потому что им все равно, ошибаются они или нет. Они заботятся только о том, чтобы удостовериться, что они распознают больных как больных.

Для врача, слишком озабоченного точностью, будет очень высокий стандарт, чтобы объявить кого-то больным. Таким образом, они объявляют кого-то больным, только если они абсолютно уверены, что будут правы, если объявят человека больным. Хотя их точность будет очень высокой, их запоминание будет очень плохим, и те пациенты, которые больны, но не превышают порог, установленный врачом, будут ошибочно отмечены как здоровые.

Какой метрике мне следует придерживаться?

Спросить, что лучше - больше ложных срабатываний или ложных отрицаний - это популярная философская тема в науке о данных. Ответ, как вы, наверное, догадались, - это зависит от задачи. Важно использовать свои навыки критического мышления в отношении показателей точности и запоминания. Ваша модель может сосредоточиться на теме, где ложноотрицательные результаты хуже ложных срабатываний. В этом случае вы будете больше зависеть от получения высокого отзыва, чем от высокой точности.

Я надеялся, что это поможет прояснить разницу между точностью и отзывом в машинном обучении. На следующей неделе я напишу о точности и счете F1. Спасибо за чтение!

LinkedIn