Интерпретируемое машинное обучение для локальных методов интерпретации

В этой статье мы рассмотрим некоторые из самых популярных методов интерпретации моделей машинного обучения. Эти методы не зависят от модели. Но я могу сказать, что большинство этих методов также в значительной степени полагаются на интерпретируемые алгоритмы, такие как регрессия, древовидная модель или вероятностная модель.

На эту статью сильно повлияло Интерпретируемое машинное обучение Кристофа Молнара.

Методы локальной интерпретации в основном представляют собой индивидуальные прогнозы по сравнению с глобальной интерпретацией, которые объясняют общее поведение модели.

Индивидуальные условные ожидания (ICE)

Индивидуальные условные ожидания (ICE) аналогичны графику частичной зависимости (PDP), который помогает визуализировать среднюю частичную взаимосвязь между выбранной функцией и прогнозом. Проблема возникает, когда усредненная кривая, такая как PDP, снижает сложность моделируемой взаимосвязи, в то время как частичная взаимосвязь варьируется.

В частности, график ICE подчеркивает изменчивость подогнанных значений по всем образцам, предлагая, где и насколько существует неоднородность. Следовательно, вы можете наблюдать и объяснять один образец, изменяя одну функцию, связанную с прогнозируемой целью.

Локальные интерпретируемые объяснения, не зависящие от модели (LIME)

Используя метод LIME, любая модель машинного обучения «черный ящик» может быть аппроксимирована локальной интерпретируемой моделью для учета каждого прогноза. Когда в модель загружаются разные версии ваших данных, LIME анализирует, что происходит с прогнозами. Кроме того, LIME поддерживает табличные, текстовые и графические данные.

LIME генерирует новый набор данных, состоящий из искаженных выборок и связанных с ними прогнозов модели черного ящика. LIME разрабатывает интерпретируемую модель (регрессия и ее варианты, древовидные модели и т. д.), используя искаженный набор данных, взвешенный в соответствии с тем, насколько близки выбранные примеры к интересующему экземпляру. Обученная модель должна быть хорошей локальной оценкой прогнозов, сделанных моделью машинного обучения, но она не обязана быть хорошей глобальной аппроксимацией. Таким образом, LIME имеет компромисс между сложностью и точностью.

Якоря

Метод якорей — это модельно-независимая система, которая объясняет поведение модели, находя решающее правило с высокой точностью. Метод был предложен в статье под названием Якоря: высокоточные модельно-независимые объяснения. Как и в случае с LIME, этот метод создает возмущенные выборки для создания локальных объяснений целевого прогноза. Вывод метода легче понять благодаря правилам IF-THEN, которые мы назвали якорями.

Ценности Шепли

Значения Шепли — один из популярных методов объяснения результатов модели машинного обучения. Этот метод основан на теории игр, которая используется для определения вклада каждого игрока в игру. Метод работает на назначении выплат игрокам в зависимости от их вклада в общую выплату. Значения Шепли — это средний предельный вклад значения признака в прогноз от всех возможных комбинаций признаков.

Аддитивные объяснения Шепли (SHAP)

Как и в случае со значениями Шепли, SHAP представляет собой метод локальной интерпретации, который позволяет вычислять значения Шепли с гораздо меньшим количеством коалиционных выборок. Метод представлен в этой статье, в которой предложены KernelSHAP и TreeSHAP. KernelSHAP основан на линейной регрессии, где коэффициенты являются значениями Шепли.

Заключение

Наконец, это общие локальные методы интерпретации модели машинного обучения. У каждого метода есть свои плюсы и минусы. Поэтому будьте осторожны при выборе метода и объясните его.