Машинное обучение - новое модное слово в городе. Каждая отрасль хочет использовать методы машинного обучения из-за их способности повысить точность и тем самым увеличить доход. Однако в таких отраслях, как финансы и здравоохранение, где наряду с точностью жизненно важную роль играет рассуждение, использование этих методов является большим вопросом. Ниже приводится тематическое исследование, которое показывает, что произойдет, если методы машинного обучения будут использоваться в этих отраслях. Я надеюсь, что с помощью этого блога я смогу помочь людям, работающим в этих отраслях, ответить на некоторые вопросы, заданные высшим руководством.

Г-н Рокет Сингх работает в ABC Bank. Его менеджер попросил его построить модель, чтобы предсказать, будут ли клиенты ABC Bank, владеющие кредитной картой, не выполнить свой следующий платеж или нет.

Г-н Рокет Сингх построил традиционную модель логистической регрессии, а также модель машинного обучения претендента (Gradient Boosting Machine). Он пошел к своему менеджеру с обоими результатами.

Мистер Рокет Сингх: - Я построил модель логистической регрессии, а также модель машины для повышения градиента. AUC (площадь под кривой) с логистикой составляет 76%, тогда как с GBM - 80%.

Менеджер: - Звучит интересно !! Подскажите, что такое GBM и как оно работает ??

Мистер Рокет Сингх: - GBM представляет собой ансамблевую технику, в которой несколько деревьев строятся последовательно, и каждое дерево пытается исправить ошибки, сделанные предыдущим деревом.

Менеджер: - Итак, сколько деревьев вы построили в своей модели ??

Мистер Рокет Сингх: - 100 деревьев, каждое из которых имеет максимальную глубину 2. Каждое из этих деревьев построено на 70% данных, причем каждый раз данные выбираются случайным образом, а для каждого дерева выбираются 80% функций. выбран случайно

Менеджер: - Вы можете показать мне деревья, я хочу понять переменные в каждом дереве и то, как они взаимодействуют

Мистер Рокет Сингх: - Дерево 1 и Дерево 100 показаны выше. Таким образом мы можем визуализировать каждое из 100 деревьев. Все эти деревья могут быть записаны как базовые операторы if-else и представляют собой скорее подход, основанный на правилах, чем черный ящик.

Менеджер: - Хорошо. Какие переменные являются главными в модели GBM и модели логистической регрессии? Я хочу понять, как основные переменные различаются в обеих моделях.

Мистер Рокет Сингх: - Вот список 10 основных переменных из модели GBM и модели логистической регрессии. Для логистической регрессии переменные выбираются на основе Wald Chisquare, тогда как для модели GBM переменные выбираются на основе информационного прироста.

Менеджер: - В обеих моделях список 10 основных переменных более или менее выглядит одинаково, и PAY_0 оказывается наиболее важной переменной. Тогда почему вы получаете дополнительную прибавку в 4%?

Мистер Рокет Сингх: - Это в первую очередь причина того, что между AUC нет большой разницы. При этом 4% -ный прирост связан с тем, что модель GBM способна уловить небольшие нелинейности и взаимодействие между переменными.

Менеджер: - Как модель GBM реагирует на основные переменные и можно ли понять, какие переменные взаимодействуют друг с другом.

Мистер Рокет Сингх: - Мы можем понять, как модель ведет себя для основных переменных, используя график частичной зависимости

Здесь значения на оси X обозначают фактическое значение переменных, нормализованных между 0 и 1, а значения на оси Y показывают относительный логит-вклад переменной в вероятность класса.

Таким образом, отрицательные значения на оси Y означают, что переменная приводит к приближению вероятности к 0, в то время как положительные значения подталкивают ее к 1.

Как видно из графиков выше, PAY_0 показывает нисходящий тренд, но выравнивается через 0,2, в то время как PAY_3 начинается со сглаженного тренда, а затем показывает растущий тренд сразу после 0,2 и снова выравнивается через 0,6.

Логистическая регрессия не может уловить такие виды тренда, поскольку она накладывает линейный тренд. Кроме того, более или менее верхние переменные показывают линейный тренд, следовательно, нет большой разницы между AUC. С другой стороны, если бы верхние переменные имели сильно нелинейный тренд, разница между значениями AUC была бы очень высокой.

Менеджер: - Тенденции этих переменных в значительной степени соответствуют бизнесу, но я удивлен, увидев крайности их сглаживающего характера. Можем ли мы понять, какие верхние пары переменных взаимодействуют друг с другом?

Мистер Рокет Сингх: - Да, мы можем. H-статистика Фридмана и Попеску помогает нам понять силу взаимодействия между переменными. В таблице ниже показаны верхняя пара переменных (пары из 2) и сила их взаимодействия. Значения силы взаимодействия варьируются от 0 до 1, где 0 означает отсутствие взаимодействия, а 1 означает максимальное взаимодействие.

Менеджер: - Взаимодействие BILL_AMT и PAY_AMT имеет смысл, но взаимодействие SEX & MARRIAGE очень странное. Не могли бы вы погрузиться в цифры и сообщить мне, почему это так

Мистер Рокет Сингх: - Конечно, сделаю это завтра и дам вам знать.

Менеджер: - Итак, мистер Рокет Сингх, как эта модель ведет себя на уровне потребителя. Я имею в виду, глядя на все, что вы мне показали, я думаю, что если у клиента A 25 лет, а у клиента B тоже 25 лет, то результаты могут различаться для них обоих, поправьте меня, если я ошибаюсь

Мистер Ракета Сингх: - Да, сэр, вы правы. Чтобы понять модель на уровне клиента, мы можем использовать локальные интерпретируемые методы, такие как LIME & SHAP.

LIME означает Локально интерпретируемые не зависящие от модели объяснения.

Он работает локально и расскажет, как рассчитывалась оценка вероятности для каждого клиента.

Вот как это работает :-

1.) Выберите точку x, выходные данные которой вы хотите объяснить, и получите прогноз модели ŷ.

2.) Выберите новые точки, переставив точку x. Назовем эти точки X ’. Вычислите расстояние между перестановками и исходными наблюдениями.

3.) Оцените эти моменты с помощью вашей модели черного ящика. Назовите эти прогнозы Y ’.

4.) Выберите m функций, наилучшим образом описывающих результат сложной модели из переставленных данных.

5.) Подгоните простую интерпретируемую модель к переставленным данным с m функциями и оценками сходства в качестве весов.

6.) Веса характеристик из простой модели объясняют локальное поведение сложных моделей.

Результат LIME выглядит так

Здесь я взял 1 клиента из данных. Для него PAY_0 & PAY_2 отдает предпочтение классу 0, тогда как BILL_AMT2 & PAY_AMT5 отдает предпочтение классу 1, и это четыре основные функции, ответственные за то, что он получит значение вероятности 0,21 (что является вероятностью того, что он не выполнит свои следующие платежи по модели GBM). Фактическая ценность этих 4 функций для этого клиента представлена ​​в строке выше, а также в табличной форме с цветовым кодированием для класса 0 и класса 1.

Точно так же мы можем получить понимание для любого клиента в наборе данных с помощью LIME и, чтобы оценить надежность этой интерпретации, мы можем использовать R-sqaure, который мы получаем после подбора локальной интерпретируемой модели. Значение R-квадрата для этого экземпляра было 71% и, следовательно, эти результаты могут быть надежными.

Однако у LIME есть несколько недостатков.

Недостатки LIME: -

1.) Зависит от случайной выборки новых точек, поэтому может быть нестабильным

2.) Подбор линейной модели может быть неточным, но мы можем проверить значение R в квадрате, чтобы узнать, так ли это или нет.

Чтобы быть более уверенными в понимании модели, мы можем использовать SHAP вместе с LIME.

SHAP расшифровывается как SHAPley Additive ExPlanations.

Это метод из коалиционной теории игр, который говорит нам, как справедливо распределять «выплаты» между игроками.

Что касается машинного обучения, мы можем рассматривать функции модели как «игроки», а прогнозы модели как «выплаты».

Он основан на следующих 3 аксиомах:

  1. Отсутствие: - если функция никогда не добавляет маржинального значения, их вес должен быть равен 0.
  2. Локальная точность: - При аппроксимации исходной модели f для конкретного входа x, локальная точность требует, чтобы модель объяснения, по крайней мере, соответствовала выходу f для упрощенного входа x '(который соответствует исходному входу Икс).
  3. Согласованность: - в нем говорится, что, если модель изменяется так, что вклад некоторых упрощенных входных данных увеличивается или остается неизменным независимо от других входных данных, атрибуция этих входных данных не должна уменьшаться.

Это поможет вам понять вклад каждой функции в расчет вероятности.

Результат SHAP выглядит так

На приведенном выше сюжете: -

1.) Базовое значение - это среднее значение прогнозов, сделанных для обучающего набора данных.

2.) Выходное значение - это сумма значений SHAP всех переменных для этого экземпляра вместе с базовым значением. Это то же самое, что и прогноз (логарифмические коэффициенты), сделанный моделью GBM для этого экземпляра. SHAP гарантирует, что выходное значение совпадает с прогнозом модели, который LIME не может обеспечить, и, следовательно, он более надежен

3.) Значения переменной на приведенном выше графике являются фактическими значениями для этого экземпляра.

Для указанного выше клиента BILL_AMT1 и PAY_2 предпочитают класс 1, тогда как PAY_0 и PAY_3 предпочитают класс 0.

Менеджер: - Интересно !! Просто поделитесь со мной этими результатами, внимательно изучите их и обсудите с заинтересованными сторонами. Как только модель будет завершена, мы сможем обсудить развертывание этой модели, а также то, как группа валидации должна отслеживать ее в будущем.

Мистер Рокет Сингх: - Конечно, сэр, я пришлю вам результаты по почте, и вы сможете вернуться ко мне в случае каких-либо вопросов. Также вы можете найти коды и детально работу по ссылке ниже.