Использование объяснений для обнаружения предвзятости в моделях черного ящика — Необходимость пролить свет на модели черного ящика

Нет сомнений в том, что модели машинного обучения (ML) используются для решения ряда деловых и даже социальных задач. С каждым годом алгоритмы машинного обучения становятся все более точными, инновационными и, следовательно, более применимыми к более широкому кругу приложений. От обнаружения рака до банковских услуг и самоуправляемых автомобилей список приложений ML бесконечен.

Однако по мере того, как прогностическая точность моделей машинного обучения улучшается, объяснимость таких моделей, по-видимому, становится все слабее. Их сложная и неясная внутренняя структура заставляет нас чаще всего обращаться с ними как с «черными ящиками», то есть получать их прогнозы в политике без вопросов. Распространенными «черными ящиками» являются искусственные нейронные сети (ИНС), ансамблевые методы. Однако кажущиеся интерпретируемыми модели могут оказаться необъяснимыми, как, например, деревья решений, когда они имеют большую глубину.

Необходимость пролить свет на мрак моделей черного ящика очевидна: Статьи 15 и 22 GDPR (2018 г.), Принципы искусственного интеллекта ОЭСР (2019 г.) и Закон Сената США об алгоритмической отчетности (2019) — несколько примеров, которые указывают на то, что интерпретируемость ML, наряду с подотчетностью и справедливостью ML, уже стали (или должны) неотъемлемыми характеристиками любого приложения, принимающего автоматизированные решения.

Поскольку многие организации будут обязаны предоставлять объяснения по поводу решений своих автоматизированных прогностических моделей, возникнет серьезная потребность в том, чтобы сторонние организации выполняли задачи интерпретируемости и проверяли эти модели от их имени. Это обеспечивает дополнительный уровень целостности и объективности всего процесса аудита, поскольку объяснения предоставляются внешним фактором. Более того, не у каждой организации (особенно у стартапов) есть ресурсы для решения проблем с интерпретируемостью, что требует сторонних аудиторов.

Однако при этом возникают вопросы интеллектуальной собственности, поскольку организации не захотят раскрывать какую-либо информацию о деталях своей модели. Таким образом, из широкого спектра методов интерпретируемости подходы, не зависящие от модели (т. е. методы, не учитывающие детали модели), считаются подходящими для этой цели.

Помимо объяснения предсказаний модели черного ящика, интерпретируемость также может дать нам представление об ошибочном поведении наших моделей, которое может быть вызвано нежелательными закономерностями в наших данных. Мы рассмотрим пример, в котором интерпретируемость помогает нам выявить гендерную предвзятость в наших данных, используя независимый от модели метод, который использует суррогатные модели и значения Шепли.

Мы используем «Набор данных о клиентах по кредитным картам по умолчанию», который содержит информацию (демографические факторы, кредитные данные, историю платежей и выписки по счетам) о 30 000 клиентов по кредитным картам на Тайване с апреля 2005 г. по сентябрь 2005 г. Целью моделей в наших примерах является выявление неплательщиков (т. е. клиентов банка, которые не будут платить следующий платеж по своей кредитной карте).

Гендерно предвзятые данные

Существование необъективных наборов данных не редкость. Это может быть вызвано ложной предварительной обработкой или даже сбором из плохого источника данных, созданием перекошенных и испорченных выборок. Изучение причин предсказания модели может сообщить нам о возможной систематической ошибке в данных.

В «Наборе данных клиентов по кредитным картам по умолчанию» 43 % неплательщиков — мужчины и 57 % — женщины. Это не является необъективным набором данных, поскольку неплательщики имеют аналогичное распределение (39% и 61% соответственно).

Мы искажаем набор данных, выбирая случайным образом 957 неплательщиков-мужчин (т. е. одну треть от общего числа неплательщиков-мужчин) и изменяем их ярлыки. Это создает новый смещенный набор данных с 34%/66% мужчин/женщин, не нарушивших обязательства, и 41%/59% мужчин/женщин, не нарушивших обязательства. Затем мы берем прогнозы модели, обученной на этом смещенном наборе данных, структура которой нам безразлична. Затем мы обучаем суррогатную модель XGBoost, из которой извлекаем значения Шепли, которые помогают нам объяснить прогнозы исходной модели. Точнее, мы используем значения Шепли, чтобы выделить наиболее важные функции, отсортировав их по абсолютному значению, а затем используем естественный язык для их описания в пояснениях (см. примеры ниже).

Во-первых, мы исследуем клиента-мужчину (ID: 802), для которого модель ложно предсказала, что он не выполнит обязательства (т. е. ложноотрицательный прогноз), а затем клиентку-женщину (ID: 319), для которой модель ложно предсказала, что она не выполнит обязательства ( то есть ложноположительный).

Эти два клиента очень похожи, как показано в приведенной ниже таблице: они оба задержали платежи за сентябрь, август и июль и оплатили платежи за июнь, май и апрель.

Пояснения

Изучая объяснение клиента-мужчины, мы видим, что 4-месячная задержка последнего платежа (сентябрь 2005 г.) оказала отрицательное влияние на 28%, что означает, что это способствовало прогнозированию того, что он не выполнит свои обязательства. Тем не менее, пол и статус погашения за апрель и май, а также сумма выписки по счету за сентябрь и май оказали положительное влияние и привели к ложному отнесению клиента к ненарушителям.

Для клиента-женщины трехмесячная задержка также оказала негативное влияние, но в большем процентном соотношении по сравнению с клиентом-мужчиной (37%). Пол также оказал негативное влияние на 22%. Кроме того, модель также считала важной двухмесячную задержку платежа в июле, тогда как у клиента-мужчины, у которого была такая же задержка, это не считалось важным.

Глобальные объяснения также подтверждают гендерную предвзятость, поскольку гендерная характеристика является второй наиболее важной характеристикой модели.

Мы повторяем эксперименты, удаляя признак пола из набора данных. Теперь клиент-мужчина правильно предсказан как неплательщик, и объяснения имеют немного больше смысла: задержка последнего платежа (сентябрь) имеет большое влияние в 49%, а также задержки двух других платежей.

Однако модель по-прежнему ошибочно предсказала, что покупательница не выполнит свои обязательства. Опять же, задержка последнего платежа является наиболее важным фактором. Можно утверждать, что модель еще более сурова по отношению к этому покупателю: хотя она заплатила небольшую сумму за майский платеж (863 NT доллара), модель посчитала его с отрицательным коэффициентом 8%, тогда как в случае с мужчиной нулевая выплата за апрель оказала отрицательное влияние всего на 4%. Это должно насторожить нас, чтобы исследовать непредставленную выборку мужчин-неплательщиков в нашем наборе данных и побудить нас исправить наши данные.

Резюме

Очевидно, что объяснения помогли нам выявить предвзятость в данных, а также выявить непреднамеренные шаблоны решений нашей модели черного ящика. Более того, даже когда признак пола был удален из обучающих данных, объяснения помогли нам обнаружить представители предвзятости, то есть закодированные (половые) предубеждения по другим признакам. Это может привести нас к решению признать предвзятость в наших данных и мотивах, чтобы получить лучшую выборку неплательщиков.

Забрать

Если набор данных содержит реальных людей, важно убедиться, что модель не выделяет одну группу по сравнению с другими. Объяснения помогают нам обнаруживать предвзятость и мотивируют нас исправлять наши данные.