Точность и отзыв — гипотетический пример

Введение

В своем сообщении в блоге о несбалансированных данных я представил некоторые способы измерения эффективности прогнозов для редких событий, в частности точность и полноту метрик. Теперь эти термины являются распространенным жаргоном в сообществе специалистов по данным, но могут показаться запутанными для тех, кто только начинает работать в этой области.

Я собрал воображаемый пример, который иллюстрирует, как эти концепции могут применяться в бизнес-контексте для определения и взвешивания сложных бизнес-приоритетов.

Мошенничество с кредитными картами

Согласно Отчету Австралийской платежной сети, мошеннические транзакции составили менее 0,1% транзакций по кредитным картам в 2018 году, но их стоимость составила более 574 миллионов долларов. Это явно редкое событие, и это идеальный случай для применения наших концепций точности и полноты.

Ситуация

Возьмем воображаемый банк, назовем его ExampleBank.

В рамках своей стратегии роста ExampleBank заключил новое партнерское соглашение с крупной компанией, выпускающей кредитные карты. Их анализ показывает, что доля мошеннических транзакций за последние годы почти вдвое превышает средний показатель по стране и составляет около 0,2%.

Люси — бизнес-стратег в ExampleBank, отвечающая за безопасность активов. Она недовольна результатами основанной на правилах модели, которую ExampleBank использует для предотвращения мошенничества с кредитными картами. Она много слышала о машинном обучении и хочет узнать, может ли машинное обучение помочь ExampleBank добиться лучших результатов.

В ExampleBank есть подразделение по обработке и анализу данных, поэтому Люси приглашает двух своих специалистов по данным, Эхсана и Джанет, для обсуждения возможных решений.

Первичная консультация

Для начала у нее есть несколько вопросов о производительности текущей модели.

«Итак, отдел защиты от мошенничества сообщил мне, что модель имеет точность 98%. Если это правда, то почему мы не ловим всех этих мошенников?»

Эхсан и Джанет объясняют.

«Мы подготовили более подробный отчет о текущей модели, — говорит Эхсан, перемещая слайд.
— В нем подробно описывается, что именно происходит. Точность модели может составлять 98 %, но ее точность составляет около 20 %, а полнота — около 52 %.

Джанет точно указывает на линию.
«Это означает, что из всех случаев, которые текущая модель классифицирует как мошенничество, только около 20% на самом деле являются мошенничеством. А это, — она переходит к строке с отзывом, — означает, что модель улавливает только около половины случаев мошенничества.

— Подожди, — поднимает руку Люси. «Он ловит только половину? Но это 98% точно? Как это может быть?"

«Точность также подсчитывает, сколько действительных транзакций модель правильно классифицирует, и это число действительно велико», — отвечает Эхсан.

«Да, — соглашается Джанет. — Точность похожа на заголовок. Это подводит итог, и это может упустить детали».

Люси кивает.
«Хорошо. Я вижу, как это работает. Но как нам получить более подробную информацию? Я не хочу много заниматься математикой, когда смотрю на результат или представляю свои выводы доске».

«Мы посмотрим на то, что делает модель, под другим углом, — объясняет Джанет, пока Эхсан готовит еще один слайд.
«Точность 20 % означает, что для каждого мошенничества мы также ложно подозреваем 4 клиентов в мошенничестве».

«И отзыв 50% означает, что мы выявляем половину случаев мошенничества».

— Хорошо, — соглашается Люси. «Я должен передать это вам, это гораздо более достоверная информация, чем точность 98%. Но я все еще не понимаю. Почему мы не можем просто поймать все мошенничество и не беспокоить клиентов?»

Эхсан вздыхает.
«Хотелось бы, чтобы мы могли. Мы могли бы просто заподозрить всех в мошенничестве, и тогда бы поймали всех мошенников, но после этого у нас, вероятно, не осталось бы ни одного клиента».

«Эхсан имеет в виду, — говорит Джанет, — что эти двое не так уж связаны, как кажется. Вот почему мы используем две отдельные метрики и почему эти два числа так отличаются. Это зависит от того, какой тип ошибки учитывают различные показатели, ложно ли мы подозреваем кого-то или допускаем что-то по ошибке».

«Однако, если вы можете оценить рассерженных клиентов в долларовом выражении, мы можем сравнить и их», — добавляет Эхсан. «Тогда мы можем сравнить их по стоимости».

Лицо Люси светится.
«Это тот номер, который мне нужен. Я свяжусь с командой по управлению рисками и сообщу вам эту сумму в долларах. Если вы можете оценить эффективность модели в долларах, я могу это понять. И я могу представить это правлению».

Кандидаты в модели

Несколько недель спустя Люси снова встречается с Эсаном и Джанет.

За это время Эхсан и Джанет протестировали различные типы моделей на данных, собранных отделом защиты от мошенничества ExampleBank. Люси запросила подробную информацию об анализе рисков взаимодействия клиентов с мошенническими вмешательствами и направила информацию Эсану и Джанет.

Пока Эхсан готовит презентацию, Джанет подводит итоги работы за последние недели.
«Думаю, у нас есть для вас кое-что многообещающее, — говорит она. «Мы взяли отчет группы анализа рисков и провели сравнение некоторых моделей-кандидатов».

Эхсан открывает первый слайд.

«В отчете указан ожидаемый риск от 900 до 1500 долларов для разгневанного клиента, пострадавшего от мошенничества, который в среднем составляет 1200 долларов. Мы обнаружили, что средняя стоимость мошеннической транзакции за последний год составила 298 долларов США, поэтому мы можем консервативно округлить ее до 300 долларов США. Другими словами, сохранение клиентского опыта в 4 раза важнее, чем выявление мошеннических транзакций».

Он переходит к следующему слайду.

«Существует комбинированный показатель, называемый F1-score, который дает нам оценку того, насколько эффективно модели уравновешивают эти приоритеты».

Люси хмурится.
«Подожди. Это просто цифры. Я думал, мы будем выражать все в долларах?

«Мы по-прежнему, — объясняет Джанет, — оценка F1 использует вес, основанный на стоимости одного мошенничества в долларах, деленной на стоимость в долларах на одного клиента, это просто число. Он сравнивает, насколько хорошо модель уравновешивает два значения, чем выше, тем лучше».

— Хорошо, — кивает Люси. "в этом есть смысл. Продолжать."

Эхсан указывает на слайд.
«Наша базовая модель имеет точность 20 %, полноту 52 %, что означает, что ее показатель F1 становится равным 0,20751. Это число, которое мы должны побить, иначе мы где-то потеряем деньги».

— Да, я помню, — говорит Люси. «Он получает половину мошенничества, но должен пройти через четырех клиентов, чтобы получить дело о мошенничестве».

«Точно», — подтверждает Эхсан. «Первый новый вариант, который мы построили, имеет аналогичную точность — 22%, а полнота — 68%. Его оценка F1 составляет 0,22912».

Люси снова хмурится. «Похоже, что это не очень много делает. Что еще у тебя есть?

«Наша третья модель имеет точность 13%, а на этой нам удалось добиться полноты до 82%».

— Звучит многообещающе, — говорит Люси. «Это наверняка поможет поймать гораздо больше мошенничества».

«Это правда, — соглашается Джанет, — однако у него F1-оценка 0,13677. Это означает, что в целом она будет работать хуже, чем даже модель, которую мы сейчас используем».

Люси смотрит на экран, пытаясь разобраться в цифрах.
«Я не понимаю. Это почему? У него на 30% больше отзыва, что должно выявить гораздо больше случаев мошенничества. Разница в точности очень мала».

«Это из-за стоимости, — объясняет Джанет. «Вместо 5 из 10 теперь будет ловить 8 из 10 случаев мошенничества, но на каждые 10 подозрительных случаев 9 будут честными клиентами. Это более чем в два раза больше, и эти ящики дороже».

Люси еще немного хмурится, глядя на экран, затем кивает.
«Да. Да, теперь я вижу. Ладно, мне кажется, нам есть с чем поработать.

Все трое соглашаются, чтобы команда продолжала работать и регулярно сообщала о своих выводах.

Выполнение

Люси, Эхсан и Джанет снова встречаются после завершения периода разработки для проверки концепции. Эхсан и Джанет подготовили несколько слайдов, чтобы помочь Люси сообщить о результатах проекта своему руководителю.

«Итак, каков последний результат разработки модели?»

Эхсан и Джанет улыбаются.

«Нам удалось немного повысить как точность, так и отзыв, до 23% и 76% соответственно». Джанет говорит, а Эхсан добавляет:
«Это означает, что оценка F1 теперь выросла с 0,22912 до 0,23984».

Люси позволяет своим глазам блуждать по цифрам на экране.
«Хорошая работа! А это значит, что клиентский опыт не стал хуже, верно?»

— Да, — подтверждает Эхсан.

«И мы выявляем на 50% больше случаев мошенничества, чем раньше?»

"Правильный."

Люси улыбается.
«Отлично. Вы дали мне несколько отличных инструментов, чтобы показать производительность модели. Я действительно доволен тем, чего мы достигли. Я добавлю ваши данные в свою презентацию и дам вам знать, как мы пойдем».

Правление впечатлено наличием ощутимых эффектов реального мира как части описания производительности модели и аплодирует Люси за хорошо подготовленную презентацию.

Неделю спустя Люси получает подтверждение того, что проекту разрешено приступить к производству.

Вывод

Проект завершается с большим успехом. Люси получила высокую оценку за то, что она помогла ExampleBank реализовать свою стратегию роста, и у нее по-прежнему хорошие рабочие отношения с командой специалистов по обработке и анализу данных. Она хранит презентации, которые она сделала, как память о своем успехе и краткую заметку о том, как интерпретировать точность и отзыв, в своих личных файлах.

«Точность — это еще не все. Всегда сводите его к долларовой стоимости», — записывает она, рядом с ним нарисована небольшая шкала. «Если я могу это понять, я могу это объяснить».

Она откладывает записи в сторону и поворачивается к ноутбуку. Пора переходить к следующему проекту.