Два способа визуального анализа двоичного классификатора

Недавно, когда я писал статью о том, как оптимально настроить бинарный классификатор, включающую, среди прочего, анализ ROC, я натолкнулся на многообещающую альтернативу, известную как анализ TOC. В этом посте я познакомлю вас с концепциями обоих визуальных инструментов и расскажу об их сходствах и различиях.

Мотивация

Когда дело доходит до оценки производительности бинарных предикторов, кривая рабочей характеристики приемника (ROC) была основным продуктом на протяжении десятилетий и фактически задолго до эры машинного обучения (ранний пример из 1950-х годов см. Петерсон и др. [1]). Он позволяет нам оценивать и сравнивать производительность классификаторов и, следовательно, является полезным инструментом для выбора модели.

То, что классификатор вообще может быть полностью охарактеризован кривой, нарисованной в двухмерном пространстве, то есть на вашем мониторе или листе бумаги, основано на том факте, что матрица неточностей два на два имеет только две степени свобода для любого заданного набора тестов. Каждая точка на кривой ROC определяет соответствующую матрицу неточности тогда и только тогда, когда вы знаете состав своего тестового набора, то есть знаете, сколько положительных и отрицательных образцов он содержит. Однако сам график ROC не содержит композицию как визуальную информацию.

Учитывая долгую историю анализа ROC, этот недостаток сравнительно недавно был устранен путем введения общей рабочей характеристики (TOC) через Понтиуса и Си в 2014 году [2]. Диаграмма TOC содержит полную информацию ROC и, кроме того, позволяет вам считывать общую информацию, то есть состав тестового набора и все четыре элемента матрицы неточностей для каждой точки на кривой.

Прежде чем мы увидим, как это работает, давайте быстро рассмотрим основные концепции и обозначения двоичной классификации.

Основы двоичной классификации

В двоичной классификации производительность модели обычно оценивается путем сравнения ее прогнозов для точек данных из тестового набора с известными правильными результатами, то есть с метками вашего тестового набора. Прогноз для каждой точки данных попадает в одну из четырех категорий: истинно положительный (TP), истинно отрицательный (TN), ложноположительный (TP) или ложноотрицательный (FN), а количество образцов в каждой категории представлено в матрица ошибок :

Хотя матрица неточностей состоит из 4 компонентов, только два из них фактически независимы. Это связано с тем, что каждый фактический набор тестов имеет определенное фиксированное количество P фактически положительных образцов и определенное количество N фактически отрицательных образцов. Следовательно, независимо от производительности конкретного классификатора, в конце концов, мы всегда имеем TP + FN = P и TN + FP = N.
Это дает два уравнения с четырьмя неизвестными и оставляет нам две степени свободы. Обычный (но не единственный) способ параметризации этих степеней свободы - использование истинно положительной скорости (TPR) и ложной положительной скорости (FPR). Математически они определяются как

Исходя из этих определений, вы можете легко убедить себя с очень небольшой алгеброй, что TPR и FPR достаточно для определения всех четырех TP, FP, FN и TN, отметив, что

Во многих случаях классификаторы основаны на вероятностной классификации. Это означает, что они вычисляют вероятности для каждого класса по характеристикам точки данных x. В случае бинарной классификации это две вероятности p (1 | x) и p (0 | x). Поскольку образец должен принадлежать к любому из двух классов, то есть p (1 | x) + p (0 | x) = 1, достаточно посмотреть на одну из двух вероятностей, скажем, p (1 | x ). Чтобы получить двоичное предсказание, порог дискриминации используется для дискретизации непрерывной вероятности p (1 | x) на любой из двух классов:

Таким образом, TPR и FPR, а вместе с ними все четыре числа в матрице неточности зависят от порогового значения. Эта зависимость и предназначена для визуализации как графиков ROC, так и TOC.

Графики ROC и TOC

Графики ROC и TOC представляют собой инструменты для визуализации производительности классификатора для всех возможных вариантов пороговых значений на одном графике. Однако они основаны на двух разных системах координат.

Кривая ROC строится в системе координат FPR-TPR, то есть вы строите график (FPR (порог), TPR (порог)) для всех пороговых значений от 0% до 100%. С другой стороны, график TOC строится в системе координат (TP + FP) -TP, то есть вы наносите точки (TP (порог) + FP (порог), TP (порог)) для каждого порогового значения. .

Основная привлекательность графика оглавления заключается в том, что вы можете считывать полную матрицу путаницы для каждой точки в пространстве оглавления. Это достигается не только построением кривой, но и окружающего прямоугольника в форме параллелограмма с углами (0, 0), (N, 0), (N + P, P), (P, P).

Мы обсудим природу этого параллелограмма более подробно ниже, а пока отметим, что расстояние от любой точки на кривой TOC до левой границы прямоугольника соответствует FP, расстояние до правой границы до TN, расстояние до верха до FN и расстояние до низа до TP.

В отличие от ROC-графа, который не позволяет восстановить матрицу неточностей без знания P и N, которые не содержатся в самом графе, граф TOC содержит матрицу неточностей для каждого заданного выбора порога. Кроме того, вы можете легко узнать размер и состав тестового набора, обнаружив, например, асимметрию ваших данных, которые остались бы «скрытыми» на ROC-графике.

Пространство ROC и пространство TOC

Кривая ROC привязана к квадратной области, известной как пространство ROC, точки которой соответствуют всем возможным значениям TPR и FPR от 0 до 1 [3].
Этот квадрат разрезан пополам. по диагонали от TPR = FPR = 0 до TPR = FPR = 1.
Точки на этой диагонали представляют так называемые неинформированные классификаторы.
Такой классификатор просто классифицирует точки данных случайным образом, полностью игнорируя его фактические значения характеристик. Неинформированный классификатор с TPR = FPR = 0,7, например, классифицирует 7 из 10 точек данных как положительные и 3 из 10 как отрицательные.

На крайних концах этой диагонали расположены два очень особых решающих устройства.
В нижнем левом углу, при TPR = FPR = 0, у нас есть классификатор, который просто классифицирует каждую точку данных как отрицательную. Классификатор в правом верхнем углу пространства ROC классифицирует каждую точку данных как положительную.

Не менее интересны два других угла пространства ОКР. В верхнем левом углу у нас есть идеальный классификатор. Он присваивает правильную категорию каждой отдельной точке данных в тестовом наборе, соответствующей диагональной матрице путаницы с TP = P, TN = N и FP = FN = 0, то есть

Вы можете сделать идеальный классификатор совершенно несовершенным, перевернув каждый из его ответов. Этот наихудший из возможных классификаторов присваивает неправильную категорию каждой точке данных, что приводит к матрице путаницы TP = TN = 0, FP = N и FN = P, то есть

В пространстве ROC это соответствует нижнему правому углу, TPR = 0, FPR = 1.

Пространство TOC отличается от пространства ROC по двум фундаментальным признакам. Во-первых, это не квадрат, а параллелограмм, а, во-вторых, его форма зависит от состава тестового набора. Это прямое следствие выбора осей, потому что в отличие от коэффициентов TPR и FPR, абсолютные числа TP и FP не содержатся в диапазоне от 0 до 1. Чтобы понять параллелограмм, выберите любое фиксированное значение TP. Тогда ваш выбор автоматически будет нижней границей TP + FP, абсциссы графика TOC (также известной как ось x), поскольку FP - это счетчик и, следовательно, никогда не является отрицательным. Верхняя граница TP + FP также определяется вашим выбором. Это TP + N, поскольку FP не может быть больше N. Эти нижняя и верхняя границы TP + FP образуют наклонные левую и правую границы параллелограмма. Сам TP также является счетчиком и ограничен диапазоном от 0 до P, определяя нижнюю и верхнюю границы параллелограмма соответственно. Следовательно, все пространство ТОС может быть вложено в прямоугольник N + P на P.

Несмотря на все различия, пространство ТОС представляет собой (неравномерно) масштабированную и срезанную версию пространства ОКР. Любая точка в пространстве ROC может быть отображена в пространство TOC с помощью линейного преобразования

Это преобразование представляет собой композицию масштабирования

и стрижка

Следовательно, мы можем перейти из пространства ROC в пространство TOC, используя

Из-за простой природы этого преобразования основная геометрическая структура пространства ROC переносится в пространство TOC. Таким образом, как и пространство ROC, пространство TOC также делится вдвое на диагональ, представляющую неинформированные классификаторы. Углы пространства TOC также сохраняют свое значение из пространства ROC: идеальный классификатор в верхнем левом углу, наихудший из возможных классификаторов в правом нижнем углу, полностью положительный классификатор в правом верхнем углу и полностью отрицательный классификатор в нижнем левом углу (см. Рисунок 4).

Другие производные свойства также остаются неизменными при преобразовании. Рассмотрим, например, площадь под кривой ROC (AUROCC), типичную метрику для описания кривой ROC в целом с помощью одного числа. Площадь под кривой TOC (AUTOCC) прямо пропорциональна площади под кривой ROC (AUROCC) и может интерпретироваться таким же образом. У нас есть

так что доля пространства ROC (квадрат 1 на 1) под кривой ROC такая же, как доля пространства TOC (параллелограмм N на P) под кривой TOC.

В оригинальной публикации Понтия и Си [2] есть подробное доказательство этой связи, но я считаю более простым считать, что только
ϕₛcₐₗₑ влияет на площадь (ϕₛₕₑₐᵣ сохраняет площадь) и его якобиан равен N⋅P, так что очевидно, что AUROCC соответственно увеличивается при преобразовании.

В пространстве TOC есть одна примечательная точка, которую нельзя идентифицировать в пространстве ROC. Это точка (P, TP), показанная как точка (5) на рисунке 4. Это точка на кривой непосредственно под верхним концом левой границы параллелограмма. Классификатор, работающий в этой точке, дает точно такое же соотношение положительных и отрицательных прогнозов, как и положительные и отрицательные образцы в тестовом наборе. Можно сказать, что такой классификатор правильно отображает фактическую распространенность. Все классификаторы слева от этой точки недооценивают соотношение положительных результатов, в то время как все классификаторы справа его переоценивают.

Форма пространства ТОС

В то время как пространство ROC остается геометрически статичным при изменении состава тестовой выборки, пространство TOC сильно изменяется. Понтиус и Си предлагают «улучшить визуальную ясность», изменив масштаб графика так, чтобы на бумаге (или на вашем мониторе) и ось TP, и ось TP + FP имели одинаковую длину [2].
Однако это помогает понять концепцию пространства TOC, чтобы нарисовать оси TP и TP + FP в одном масштабе и посмотреть, как пространство TOC разворачивается и сжимается при изменении состава набора тестов.

Для любого непустого набора тестов возможны пять ситуаций:

1. 0=N<P
2. 0<N<P
3. 0<P=N
4. 0<P<N
5. 0=P<N

Для иллюстрации давайте рассмотрим игрушечный классификатор, обученный на наборе данных «Взрослый» [4], и составим основной тестовый набор с одинаковым количеством положительных и отрицательных образцов. Затем мы можем создать все пять возможных ситуаций, контролируя подмножество этого набора. В частности, мы начинаем с N = 0, P = 1552 (ситуация 1), увеличиваем N (ситуация 2), пока не достигнем N = P = 1552 (ситуация 3). Оттуда мы уменьшаем P (ситуация 4), пока не достигнем P = 0, N = 1552 (ситуация 5). На рисунке 6 показано, как пространство ТОС меняет свою форму из-за этих изменений в составе тестового набора.

Обсудим ситуации с 1 по 5 более подробно.

При N = 0 ‹P пространство ТОС одномерно! Его левая и правая границы сжимаются в одну диагональную линию от (0, 0) до (P, P) (см. Рисунок 7).

Хотя на первый взгляд это может показаться странным, это разумно, поскольку при отсутствии негативов производительность классификатора на самом деле одномерная, полностью определяется одним параметром, его TPR.

Уходя из этой экстремальной ситуации, увеличиваем количество негативов в тестовой выборке.

Диагональ разделяется на левую и правую границу, открывая конечную область, «нормальное» двумерное пространство ТОС.

Однако пространство TOC сохраняет форму довольно узкой диагональной полосы, потому что его правая граница начинается с TP + FP = N, далеко слева от TP + FP = P, где заканчивается его левая граница (см. Рисунок 8).

Далее, увеличивая долю негативов, мы приближаемся к ситуации, когда P = N, то есть негативы и позитивы идеально сбалансированы в тестовом наборе.

Теперь правая граница пространства оглавления начинается непосредственно под конечной точкой его левой границы (см. Рисунок 9).

Когда мы увеличиваем количество негативов сверх этой точки, мы приходим к ситуации, когда левая и правая граничные диагонали больше не находятся друг над другом и есть прямоугольная область между (P, 0), (N, 0), (N , P) и (P, P).

Следовательно, пространство ТОС теперь кажется довольно широким (см. Рисунок 10).

В конце концов, мы подходим к другой крайности: весь набор тестов заполнен исключительно негативами. Опять же, две границы пространства оглавления сжимаются двумя одной линией.

На этот раз это верхняя и нижняя границы, так что пространство оглавления становится горизонтальным отрезком линии от 0 до N (см. Рисунок 11).

Опять же, этот коллапс разумен, поскольку результат классификатора теперь состоит исключительно из TN и FP, а его производительность полностью определяется одним параметром, его FPR.

Мы завершаем наш круговой обход пространства TOC, отмечая, что для (практически несущественного, но патологически интересного) случая полностью пустого тестового набора с N = P = 0 пространство TOC схлопнется еще больше, превратившись в единую точку.

Обсуждение

График оглавления - полезное дополнение к набору инструментов статистика. Читатели, привыкшие к ROC-анализу, могут быстро научиться интерпретировать диаграмму TOC, потому что оба представления имеют много общих свойств.

Кривая TOC содержит строго больше информации, чем ее аналог ROC. Тем не менее, информационная разреженность графа ROC также может рассматриваться как преимущество. Как пишет Фосетт в своем Введение в ROC-анализ [3]: «Одно из преимуществ ROC-графиков состоит в том, что они позволяют визуализировать и организовать работу классификатора без учета распределения классов или стоимости ошибок. Эта способность становится очень важной при изучении обучения с использованием искаженных распределений или обучения с учетом затрат. Исследователь может построить график производительности набора классификаторов, и этот график останется инвариантным относительно условий работы (перекоса классов и стоимости ошибок). По мере изменения этих условий интересующая область может измениться, но сам график - нет. »

Следовательно, кривые ROC останутся актуальными для определенных целей, где TOC не является подходящей заменой.

Когда дело доходит до поддержки библиотек, кривая ROC имеет явное преимущество. Хотя в любой крупной библиотеке машинного обучения или статистики есть готовые к использованию библиотечные функции для анализа ROC, поддержка TOC все еще довольно ограничена из-за относительно короткого времени с момента его создания. Существует пакет TOC R, созданный авторами оригинальной публикации TOC. Однако, если вы готовы приложить дополнительные усилия, функция построения диаграмм оглавления на основе вероятностей будет быстро реализована на вашем любимом языке программирования.

Наконец, нужно учитывать, что графы - это, в конце концов, средство коммуникации. В сообществах статистики и машинного обучения ROC-анализ является хорошо известным стандартом, и ROC-графики понятны напрямую. Напротив, TOC-анализ все еще относительно молод и может по-прежнему вызывать недоумение у части вашей аудитории. Если у вас есть 10-минутный временной интервал на важной конференции, вы не захотите тратить 5 минут на объяснение необычного типа диаграммы (TOC), особенно когда есть альтернатива (ROC), которую ваша аудитория получит сразу.

Хотя TOC-анализ еще далек от широкого распространения, я надеюсь, что этот пост убедил вас в том, что это инструмент, который стоит попробовать при анализе производительности классификатора.

использованная литература

[1] У. Петерсон, Т. Бердсолл и У. Фокс, Теория обнаруживаемости сигналов (1954), Транзакции профессиональной группы IRE по теории информации, 4 (4), страницы 171– 212.

[2] Р. Г. Понтиус-младший и К. Си, Общая рабочая характеристика для измерения диагностической способности для нескольких пороговых значений (2014 г.), Международный журнал географической информатики 28 (3), страницы 570–583

[3] Т. Фосетт, Введение в анализ ROC (2006), Письма о распознавании образов 27, страницы 861–874.

[4] Набор данных для взрослых (1996), предоставленный Дуа, Д. и Графф, К. (2019), Репозиторий машинного обучения UCI