Полное пошаговое руководство по оценке производительности модели машинного обучения.

Введение

Показатели производительности играют важную роль во всех рабочих процессах машинного обучения. Они не только означают прогресс, но и предлагают количественную меру для оценки улучшения модели.

Каждая задача машинного обучения может быть отнесена к категории Регрессия или Классификация, и это различие распространяется и на показатели производительности. В этой статье мы сосредоточимся на обсуждении метрик классификации.

Важно отметить, что метрики отличаются от функций потерь. Функции потерь измеряют производительность модели и используются для обучения модели машинного обучения с использованием таких методов оптимизации, как градиентный спуск. Обычно они дифференцируемы по параметрам модели. Метрики, с другой стороны, отслеживают и измеряют производительность модели во время обучения и тестирования и не должны быть дифференцируемыми.

Показатели классификации

Показатели классификацииоценивают производительность модели и сообщают, насколько хороша или плоха классификация, но каждый из них оценивает ее по-своему.

Показатели производительности образуют иерархию, которая начинается с основных компонентов — истинных положительных результатов, истинных отрицательных результатов, ложных положительных результатов и ложных отрицательных результатов — и постепенно выстраивается в более комплексные меры, такие как оценка F1, которая объединяет эти компоненты. Давайте рассмотрим эти метрики на базовом уровне и пойдем дальше.

Истинные/ложные положительные и отрицательные стороны

Двоичный классификатор можно рассматривать как классификацию примеров по положительным или отрицательным категориям:

  • Положительный: пример классифицируется как принадлежащий к классу, который классификатор стремится обнаружить. Например, классификатор, ищущий изображения кошек, правильно пометит изображения, содержащие кошек, как положительные.
  • Отрицательный: пример классифицируется как не принадлежащий к классу, который классификатор пытается идентифицировать. Например, классификатор, ищущий изображения кошек, должен помечать изображения, содержащие собак (но не кошек), как отрицательные.

Истинный положительный результат (TP)

В таблице ниже представлены три случая истинно положительного (TP) сценария. Начальная строка иллюстрирует общий пример, где цифра 1 обозначает положительный прогноз. Следующие две строки содержат помеченные примеры.

Ложноположительный результат (FP)

Эти примеры ложноположительных результатов (FP) демонстрируют случаи неправильных прогнозов, когда положительные результаты ожидаются для случаев, которые действительно являются отрицательными. Этот тип неточного прогноза известен как ложное срабатывание.

Истинный отрицательный результат (TN)

В сценарии True Negative (TN) классификатор кошек точно определяет, что на изображении нет кошки, а медицинское изображение показывает, что у пациента нет рака. Следовательно, прогноз Отрицательный и точный (Истина).

Ложноотрицательный (ЛН)

В ситуации с ложноотрицательным результатом (FN) классификатор предсказывает отрицательный результат, даже если истинный результат положительный. Например, это может означать, что кошки нет, хотя кошка действительно есть. Поскольку прогноз является отрицательным и неверным (ложным), он классифицируется как ложноотрицательный.

Запутанная матрица

Матрица путаницы (M_n) используется для оценки эффективности модели классификации, где n — количество целевых классов. Он предоставляет табличную визуализацию наземных меток и прогнозов модели. Каждая строка в матрице путаницы представляет экземпляры в предсказанном классе, а каждый столбец представляет экземпляры в реальном классе.

Он используется для отображения производительности классификатора с учетом четырех значений (TP, FP, TN, FN). Эти значения располагаются по отношению друг к другу, образуя матрицу путаницы:

Имея в виду пример прогнозирования рака, матрица путаницы для выборки из 100 пациентов может выглядеть следующим образом:

По размышлении становится очевидным, что среди этих ошибок существуют разные уровни серьезности. Ошибочная классификация больного раком как больного раком (ложноотрицательный результат, отказ от лечения), вероятно, более критична, чем неправильный диагноз рака у здорового человека (ложноположительный результат, рекомендация лечения и проведение дополнительных тестов).

Поскольку степень серьезности различных ошибок различается в разных приложениях, для корректировки прогнозов классификатора в соответствии с желаемым балансом можно использовать такие показатели, как точность, точность, полнота и F1-оценка.

Точность

Распространенным основополагающим показателем, используемым при оценке моделей, является точность, которая количественно определяет долю точных прогнозов от общего числа сделанных прогнозов.

Количество всех прогнозов на самом деле является размером нашего набора данных.

В приведенном ранее примере с раком точность можно определить следующим образом:

Этот показатель, пожалуй, самый простой для понимания среди показателей оценки модели, поэтому он часто используется. Тем не менее, часто бывает полезно углубиться в дополнительные показатели.

Точность

Точность — это показатель оценки модели, который измеряет долю истинных положительных прогнозов из всех положительных прогнозов, сделанных моделью.

На самом деле точность используется для оценки способности модели правильно идентифицировать соответствующие экземпляры путем расчета отношения истинных срабатываний к сумме истинных срабатываний и ложных срабатываний.

В контексте сценария рака расчет точности будет следующим:

Отзыв / Чувствительность

Напомним, также известная как чувствительность количественно определяет долю правильно предсказанных положительных случаев из всех фактических положительных случаев, присутствующих в наборе данных.

На самом деле отзыв используется для оценки способности модели точно идентифицировать все соответствующие экземпляры путем расчета отношения истинных положительных результатов к сумме истинных положительных и ложных отрицательных результатов.

Учитывая пример с раком и доступные данные в матрице путаницы, отзыв можно определить следующим образом:

F1-счет

F1-Score — это показатель, объединяющий точность и полноту, обычно рассчитываемый как гармоническое среднее двух значений. Среднее гармоническое — это альтернативный метод вычисления среднего значения, который считается более подходящим для таких отношений, как точность и полнота, чем стандартное среднее арифметическое.

Идея состоит в том, чтобы предложить единую метрику, которая уравновешивает два отношения (точность и полнота), требуя, чтобы оба показателя достигли большего значения для повышения F1-Score. Например, точность 0,01 и полнота 1,0 дадут:

  • среднее арифметическое (0,01+1,0)/2 = 0,505,
  • Оценка F1 (формула выше) 2 * (0,01 * 1,0) / (0,01 + 1,0) = 0,02.

Это связано с тем, что оценка F1 гораздо более чувствительна к одному из двух входных параметров, имеющих низкое значение (здесь 0,01). Что делает его отличным, если вы хотите сбалансировать два.

В приведенном выше примере с раком оценка F1 будет следующей:

Выводы

  • Если у вас есть наборы данных, которые распределены достаточно равномерно и в равной степени заинтересованы во всех возможных выходных данных, традиционная точность является хорошей метрикой для использования.
  • Точность – это фантастическая область, на которой стоит сосредоточиться, если вы хотите уменьшить количество ложных срабатываний. Рассмотрите возможность создания классификатора спама. Вы хотите видеть как можно меньше спама. Тем не менее, вы не хотите упускать из виду какие-либо важные электронные письма, не являющиеся спамом. В этих ситуациях вы можете стремиться к максимальной точности.
  • В таких областях, как медицина (например, выявление рака), где вы действительно хотите уменьшить вероятность пропуска положительных случаев, отзыв имеет решающее значение (прогнозирование ложноотрицательных результатов). В большинстве таких ситуаций пропустить положительный случай дороже, чем неправильно классифицировать что-то как положительное.

Ни точность, ни полнота не обязательно полезны сами по себе, поскольку нас скорее интересует общая картина. Точность всегда хорошо проверить как один из вариантов. F1-счет — это другое.

  • Показатель F1 — это показатель, который объединяет точность и полноту и эффективен даже при работе с несбалансированными наборами данных. Он учитывает как точность, так и полноту, гарантируя, что обе метрики имеют важное значение. Следовательно, даже если количество положительных случаев невелико по сравнению с отрицательными случаями, на оценку F1 будет влиять низкая точность или полнота положительного класса, что снижает значение метрики.

Это обертка!

Спасибо, что нашли время, чтобы просмотреть эту статью. Если у вас есть какие-либо вопросы, пожалуйста, не стесняйтесь обращаться ко мне в Твиттере @yassine_rd_