Содержание:

  1. Какая цель для переменной важности?
    1.1 Установите цель…
    1.2… Выбрав квадрант
  2. 4 целевых квадранта
    2.1 Зона SHAPLEY EFFECTS
    2.2 Зона SHAP
    2.3 Зона SHAPloss
    2.4 Зона SAGE
  3. Решение Шепли для каждого квадранта
    3.1 Значения Шепли
    3.2 Атрибуция приложений для функций
  4. Перспективы на будущее и полезные советы
  5. Ссылки

Вы, наверное, слышали о методах важности функций: их много, и они могут быть очень полезны для выбора переменных и объяснения модели. Но это еще не все: ландшафт аддитивной важности переменной недавно стал структурированным и систематически стал оптимальным.

Эта статья - не просто еще одна статья SHAP, в ней представлены аналогичные понятия, которые разделяют важный компонент: Ценности Шепли. Представлена ​​структурированная матрица 2 на 2, чтобы лучше понять важность переменных с точки зрения их целей и масштабов. Сосредоточены на методах аддитивной атрибуции признаков, 4 идентифицированных квадранта представлены вместе с их «оптимальным» методом: SHAP, SHAPLEY EFFECTS, SHAPloss и самый последний SAGE. Затем мы рассмотрим значения Шепли и их свойства, которые делают эти 4 метода теоретически оптимальными. Наконец, я поделюсь своими мыслями о перспективах методов переменной важности.

1. Для чего нужна переменная важность?

Итак, что такое переменные значения и какие свойства они должны иметь? Мы сосредоточимся на переменной важности с двумя следующими требованиями:

  • Атрибуция функции. Показывает, насколько количество интереса нашей модели f полагается на каждую функцию.
  • Аддитивная важность: суммирование важностей должно привести к количеству, которое имеет смысл (обычно интересующему количеству модели f).

В то время как свойство атрибуция функции является сутью переменной важности, требование аддитивной важности является более сложным. Более известные методы важности переменной ломают ее: важность переменной случайного леса Бреймана, удаление признаков, важность перестановки и т. Д. Давайте сосредоточимся на важности переменных с этими двумя свойствами.

1.1. Поставьте цель…

Давайте сосредоточимся на важном понятии: Количество интереса. Интересующее количество - это показатель, который вы хотите «разбить» в виде суммы по переменным. Если вы найдете это определение слишком расплывчатым, вам понравится приведенная ниже часть значения Шепли.

Выбор количества интересов - следующий шаг, который должен соответствовать вашей цели. Есть несколько вариантов, соответствующих разным точкам зрения:

  • Локальная или глобальная область действия: следует ли суммировать значения переменных для каждой строки набора данных или в масштабе населения? Локальный охват подходит, когда актуален акцент на одной точке данных или когда важность следует анализировать по одному измерению. Принимая во внимание, что глобальный охват имеет отношение к сводной метрике, используемой для решений высокого уровня: выбор переменных, расстановка приоритетов факторов и т. Д.
  • Метрика Чувствительность и предсказательная сила: должна ли переменная важность быть мерой того, как изменяется модель f, или как с ней увеличивается прогностическая эффективность? С точки зрения чувствительности, важность должна быть сосредоточена на том, как вычисления с f зависят от переменной. В то время как подход прогнозирующей силы устанавливает важность для учета того, какой вклад переменная вносит в улучшение прогнозной производительности (уменьшение функции потерь).

1.2. … Выбирая квадрант

Эти локальные и глобальные масштабы и показатели чувствительности и прогнозируемой мощности определяют матрицу, ориентированную на цели 2 на 2. Каждый квадрант назван по критерию важности, который теоретически является «оптимальным» для его количества интереса. Уравнения представляют собой упрощенную версию аддитивной разбивки каждой интересующей величины.

Чтобы быть более конкретным, введем некоторые обозначения. Предположим, что из ваших переменных X = (X₁, X₂,…, Xᵣ) вы пытаетесь предсказать Y с помощью своей модели f (X) ∈ ℝ минимизация функции потерь l (y, f (x)). x и y относятся к одной точке данных, в то время как X и Y относятся к уровню совокупности (случайные переменные). И 𝕍 соответственно обозначают математическое ожидание («среднее») и дисперсию переменной.

2. Четыре целевых сектора

Давайте посмотрим на 4 квадранта и различные проблемы, которые они решают. Мы проделаем это путешествие в хронологическом порядке, потому что оно рассказывает хорошую историю о том, как, наконец, встречаются два разных исследовательских сообщества!

2.1. Зона SHAPLEY EFFECTS

Улучшая индексы Соболя (1993) [1], Оуэн ввел в 2014 году меру важности [2], которая была разработана и названа Сонгом и др. «Эффектами Шепли». в 2016 г. [3] (см. также дальнейшую работу и численный эксперимент Йоосса и др. в 2017 г. [4]). Исходя из области анализа чувствительности и количественной оценки неопределенности, он направлен на количественное определение того, насколько вывод модели f (например, компьютерное моделирование набора сложных уравнений) зависит от входных параметров X. Эффекты Шепли также полностью уместны в машинном обучении, где основное внимание уделяется тому, насколько вариации изученной модели f будут зависеть от переменных X.

Интересующая величина 𝕍 (f (X)). Дисперсия - это естественный выбор для количественной оценки вариаций. Обратите внимание, что в сообществе анализа чувствительности индексы обычно нормализуются по общей дисперсии, так что сумма всех переменных значимости равна 1 (или «около 1» с индексами Соболя).

При рассмотрении четырех квадрантов возникает вопрос: почему бы не выбрать 𝔼 (f (X)) в качестве интересующей величины? Это определенно глобально. Однако неуместно учитывать вариации: положительные и отрицательные вариации аннигилируют в 0 глобальных вкладов.

Давайте перейдем к 2017 году, с которого начнется сага о Лундберге в сообществе машинного обучения.

2.2. Зона SHAP

Созданная и реализованная Лундбергом в 2017 году [5], shap a имеет фокус локальной чувствительности. Обратите внимание, что хотя shap опубликован на конференции по машинному обучению, он не включает в себя цель Y или какое-либо изучение модели f. Вот почему я смог применить его к необученному экспертному алгоритму ориентации на пациентов с Covid-19. Тем не менее, он очень подходит для сообщества машинного обучения из-за его быстрых реализаций для конкретных моделей.

Количество процентов соответствует наиболее естественному выбору: f (x) для x∈ X. В отличие от глобального масштаба, здесь имеет смысл иметь как положительный, так и отрицательный вклад. Знание направления изменения полностью актуально и позволяет визуально исследовать значения shap (реализовано в пакете shap).

2.3. Зона SHAPloss

Опубликовано в Nature в 2020 году [6] (но предпечатная в 2019 году), Lundberg et al. представила нововведение! Хотя в документе основное внимание уделяется древовидным моделям, была предложена новая идея: использование shap для разбивки ошибки модели на вклады функций (см. § 2.7.4 и рисунок 5 документа), что делает его очень полезным для контролируемого мониторинга производительности. модели в производстве. Я придумал название SHAPloss, чтобы настаивать на достижении другой цели, хотя реализация выполняется внутри пакета shap путем изменения только аргумента model_output в TreeExplainer.

Интересующая величина - это локальные потери −l (y, f (x)) для (x, y) ∈ (X, Y). Обратите внимание, что l, естественно, может быть лог-потерь для проблемы классификации, в то время как MSE для регрессии. Знак минус добавлен, так что большой положительный вклад ϕᵢ означает функцию, которая значительно увеличивает производительность.

2.4. Зона SAGE

С препринтом, представленным в апреле 2020 г. [7], Covert, Lundberg et al. представить SAGE (Shapley Additive Global importancE), решение глобальной формулировки SHAPloss и эффективных способов его вычисления. Обратите внимание, что статья выходит далеко за рамки простого локального и глобального обобщения SHAPloss, но также включает обзор существующих методов важности и вводит теоретическую универсальную прогностическую силу. Кроме того, в документе SAGE дается четкая ссылка на то, что мы назвали зоной эффектов Шепли, и объясняется, чем SAGE отличается по своей цели. В некотором роде он замыкает 4-квадрантную петлю, которую мы исследовали.

Представляет интерес величина 𝔼 [−l (Y, f (X))], естественная совокупность локальной формулы SHAPloss. В отличие от перехода от SHAP к Shapley Effects, здесь работает необработанное ожидание. Это потому, что почти нет положительно-отрицательной аннигиляции, поскольку добавление переменной обычно не увеличивает потери.

3. Решение Шепли для каждого квадранта.

Теперь, когда цель и количество представляющих интерес задач определены, теория ценностей Шепли [8] предлагает оптимальные решения с учетом желаемых свойств для каждого квадранта. Давайте сначала представим значения Шепли и посмотрим, как они применяются к различным интересующим величинам.

3.1. Ценности Шепли

Значение Шепли ϕᵢᵐ - это метод атрибуции, который «справедливо» разделяет количество процентов m (Pᵣ), полученное коалицией Pᵣ = {1, 2,. ., r} между каждым объектом i∈ Pᵣ. m (u) - функция, возвращающая количество интересов коалиции u. Коалиция - это набор объектов i: существует 2ʳ возможных коалиций, включая ∅ и Pᵣ. Наконец, обозначим через Sᵢʳ множество всех возможных коалиций, которые не содержат сущность i.

Значения Шепли ϕᵢᵐ - это единственное количественное взвешивание, которое удовлетворяет 5 желательным свойствам (их значение см. В §3.1 статьи SAGE [7]), названных симметрией, линейностью, монотонностью, фиктивностью и, наконец, эффективностью, которые мы пишем здесь: m (Pᵣ) = m (∅) + ∑ ϕᵢᵐ

О формуле этих ценностей Шепли можно поговорить о многом. Но это немного не по теме, и я бы предпочел сосредоточиться на том, как эта идея Шепли применяется к 4 квадрантам.

3.2. Применение к атрибуции функции

Использование значений Shapley в нашем контексте означает, что объекты i будут переменными Xᵢ. Две оставшиеся задачи - выбрать интересующее количество и определить f для каждой коалиции переменных u. Решение, выбранное для нашего 4-квадранта, состоит в том, чтобы взять ожидание по отсутствующим переменным: f ᵤ (x) = 𝔼 (f ( X | Xᵤ = xᵤ)). Для получения дополнительной информации см. Подробности в документе SAGE.

4 представляющих интерес величины преобразуются в 4 функции m (u), которые приводят к 4 названиям квадрантов: методы переменной важности, которые имеют желаемые свойства!

Давайте перепишем матрицу 2 на 2 с более точными интересующими величинами m (u), которые являются функциями от f и всех коалиций функций u (u∈ {∅, {X ₁}, {X ₂}, .., { X, X ₂}, ..}).

Четыре значения Шепли ϕ SHAP (x), ϕ LOSS (x), Φ EFF и ϕ SAGE - оптимальные решения для каждого квадранта. Обратите внимание, что между этими значениями есть 2 связи:

  • ϕ SAGE = 𝔼 [ϕ ПОТЕРЯ (x)]
  • Потенциально, если функция потерь l является MSE, мы имеем ϕ EFF = ϕ SAGE с Y = f (X).

4. Перспективы на будущее

Мы только что увидели, что определены «оптимальные» решения и доступны реализации для каждого квадранта. Итак, рассказывается вся история?

С одной стороны, я думаю, что область аддитивных показателей важности достигла рубежа зрелости, оптимально заполнив 4 квадранта и, следовательно, замкнув цикл. До статьи в SAGE мне не было известно о какой-либо четкой формализации связи между анализом чувствительности и важностью предсказательной силы.

С другой стороны, все еще есть возможности для улучшений в отношении важности переменной и атрибуции функций, касающихся как лучшего использования этих методов, так и изучения ценности за пределами этого периметра:

На пути к лучшему использованию методов в квадрантах:

  • Распространение SHAPloss в сообществе специалистов по науке о данных. Хотя SHAP очень быстро внедряется в сообществе специалистов по обработке и анализу данных примерно за 2 года, SHAPloss в настоящее время остается незамеченным (за исключением вдохновляющей записной книжки автора Зал). Я вижу ценность контролируемого (когда известны точные метки) мониторинга производительности модели в производстве.
  • Повышение эффективности вычислений. Эти методы требуют больших вычислительных ресурсов и могут быстро стать неприемлемыми, за исключением моделей на основе деревьев. Улучшения в реализации и статистической оценке могут улучшить удобство использования (см. Недавнюю работу [9]).

За пределами матрицы 2 на 2:

  • Количество интересов на основе справедливости. Почему бы не представить себе другие столбцы? Понимание поведения модели и ее производительности - первые важные шаги. Но ответственная наука о данных также включает в себя мониторинг предвзятости и справедливости, когда это необходимо. Теоретически кажется возможным выбрать релевантную величину интереса на основе справедливости m (u) и построить ее значение Шепли, чтобы увидеть, как несправедливость будет разделена между характеристиками. Lundberg открывает путь с помощью показателей демографического паритета, которые разумно остаются в пределах зоны SHAP.
  • Изучите неаддитивные методы атрибуции функций. Если это будет сделано с помощью мультипликативной разбивки или с помощью совершенно других методов повторного взвешивания [10], количественная оценка того, насколько интересующее количество зависит от входных характеристик, по-прежнему остается широкой областью исследований и практики.

Некоторые сообщения на вынос. Я надеюсь, что в этом посте есть:

  • Улучшил ваше понимание различных целей и масштабов переменной важности.
  • Убедил вас, что область дополнительных показателей важности определенно более зрелая, чем когда-либо с тех пор, как Соболь начал ее в 1990-х годах.
  • Заставил вас задуматься о наиболее эффективном квадранте, который следует выбрать с учетом вашей цели.

Заинтересованы в эксперименте с результатами и кодом для зон SHAP и SHAPLEY EFFECTS? Вы можете проверить мою статью Переменная важность для алгоритма ориентации пациентов на Covid-19. Кроме того, вы можете проверить статью SAGE [7], чтобы узнать о других примерах неоптимальных, но более легких в вычислительном отношении методов и о том, как они вписываются в матрицу 2 на 2.

5. Ссылки

[1]: Соболь, И. М. (1993). Оценки чувствительности нелинейных математических моделей. Математическое моделирование и вычислительные эксперименты, 1 (4), 407–414. Между прочим, единственная онлайн-версия, которую я нашел, - это фотокопия с ручными аннотациями самого И. М. Соболя, отправленная Андреа Сальтелли, известному исследователю в области анализа чувствительности.

[2]: Оуэн, А. Б. (2014). Индексы Соболя и значение Шепли. SIAM / ASA Journal on Uncertainty Quantification, 2 (1), 245–251 .

[3]: Сонг, Э., Нельсон, Б. Л., и Стаум, Дж. (2016). Эффекты Шепли для анализа глобальной чувствительности: теория и вычисления. SIAM / ASA Journal on Uncertainty Quantification, 4 (1), 1060–1083 .

[4]: Йосс, Б., и Приер, К. (2019). Эффекты Шепли для анализа чувствительности с коррелированными входными данными: сравнение с индексами Соболя, численная оценка и приложения. Международный журнал количественной оценки неопределенности, 9 (5) .

[5]: Лундберг, С. М., и Ли, С. И. (2017). Единый подход к интерпретации прогнозов модели. В достижениях в системах обработки нейронной информации (стр. 4765–4774) .

[6]: Лундберг, С.М., Эрион, Г., Чен, Х., ДеГрейв, А., Пруткин, Дж. М., Наир, Б., Кац, Р., Химмелфарб, Дж., Бансал, Н., и Ли, SI, (2020). От локальных объяснений до глобального понимания с объяснимым ИИ для деревьев. Природа машинного интеллекта, 2 (1), 2522–5839.

[7]: Коверт И., Лундберг С. и Ли С. И. (2020). Понимание вклада глобальных функций с помощью дополнительных показателей важности. препринт arXiv arXiv: 2004.00668.

[8]: Шепли, Л. С. (1953). Значение для игр с участием n человек. Вклад в теорию игр, 2 (28), 307–317 .

[9]: Этот недавний препринт Плишке и др. улучшает вычисление эффектов Шепли на несколько порядков: Плишке, Э., Рабитти, Г., & Боргоново, Э. (2020). Вычисление эффектов Шепли для анализа чувствительности. препринт arXiv arXiv: 2002.12024.

[10]: Бачок, Ф., Гамбоа, Ф., Лубес, Дж. М., и Риссер, Л. (2018). Повышение энтропийных переменных для объяснимости и интерпретируемости в машинном обучении .