Один пример устранения смещения на этапе постобработки

Недавно я начал писать серию постов, в которых более подробно исследую предвзятость в ИИ и различные способы смягчения ее в рабочем процессе. В своих последних двух блогах я рассказывал о повторном взвешивании как о методе смягчения последствий на этапе предварительной обработки моделирования и о противодействии на этапе внутренней обработки (обучение модели) рабочего процесса машинного обучения.

Третий этап конвейера машинного обучения (ML), на котором мы можем вмешаться, чтобы уменьшить предвзятость, называется постобработкой. Алгоритмы постобработки - это шаги по смягчению последствий, которые можно применять к прогнозам модели. «Справедливость и калибровка» [1], «Равенство возможностей в обучении с учителем» [2] и «Теория принятия решений для классификации с учетом дискриминации» [3] относятся к различным методам снижения предвзятости после обработки, предложенным в академической литературе.

В этом посте я сосредоточусь на изучении теории принятия решений для метода классификации с учетом дискриминации, называемого классификацией на основе отклонения (ROC). В этом подходе предполагается, что наибольшая дискриминация происходит, когда модель наименее уверена в прогнозе, то есть около границы принятия решения (порога классификации). Таким образом, используя низкую доверительную область классификатора для уменьшения дискриминации и отклоняя его прогнозы, мы можем уменьшить систематическую ошибку в прогнозах модели.

Например, с порогом классификации 0,5, если прогноз модели равен 0,81 или 0,1, мы будем считать модель уверенной в своем прогнозе, но для 0,51 или 0,49 модель не уверена в выбранной категории. В ROC для прогнозов модели с наивысшей неопределенностью около границы принятия решений, когда благоприятный исход дается привилегированной группе или неблагоприятный исход дается непривилегированной, мы модифицируем их.

Преимущество этого метода в том, что вы напрямую вмешиваетесь на последнем этапе рабочего процесса моделирования. Это может быть полезно в ситуациях, когда во время прогнозирования (или в среде развертывания) доступны защищенные или конфиденциальные атрибуты. Кроме того, этот подход и в целом методы постобработки предоставляют возможность смягчения последствий без изменения стадии обучения и поэтому не ограничиваются каким-либо конкретным алгоритмом обучения. Кроме того, этот подход применим и к различным определениям справедливости.

Как и раньше, чтобы продемонстрировать, как эту технику можно использовать для уменьшения систематической ошибки, я использовал набор данных для взрослых [4]. Бинарная цель в этом наборе данных - есть ли у человека доход выше или ниже 50 тысяч долларов. Он содержит несколько функций, которые защищены законом в США, но для простоты в этом посте я остановлюсь на сексе. Как видно из приведенной ниже таблицы, мужчины - это привилегированная группа с 30% вероятностью получения положительного результата (›50 000 долларов США) по сравнению с 11% вероятностью получения положительного результата для группы женщин.

Метрика несопоставимого воздействия (DI), описанная в предыдущем блоге, является мерой дискриминации в данных. Оценка 1 означает, что набор данных не содержит дискриминации. При вычислении по набору данных для взрослых для мужчин и женщин результат составляет 0,36.

Чтобы оценить эффект, я применил доступную реализацию метода ROC в IBM toolkit [5] на предсказаниях модели на тестовых данных. В этом примере я использовал разность статистической четности (эта метрика такая же, как DI, но, а не отношение, принимает разницу между двумя вероятностями). Чтобы упростить сравнение этого анализа с моим предыдущим блогом, в дополнение к DI, я также рассмотрел среднюю разность шансов как еще одну метрику для дальнейшего анализа систематической ошибки в прогнозах этих моделей. Как уже упоминалось, средняя разница шансов вычисляет разницу между средним ложноположительным и истинно положительным коэффициентами для прогнозов для непривилегированных и привилегированных групп.

Результаты эксперимента указывают на полезность метода повторного взвешивания для уменьшения дискриминации, как показано в таблице ниже:

Как мы видим, точность модели упала на 0,07, но этот метод смог существенно улучшить показатель DI и снизить среднюю разницу шансов почти до нуля. Чтобы добиться этого снижения предвзятости, лица, принимающие решения, должны рассмотреть компромисс между точностью и справедливостью.

По сравнению с методами внутренней обработки, такими как противодействие сглаживанию, эксперименты показывают, что методы внутренней обработки более эффективны для уменьшения смещения, чем методы постобработки, такие как ROC. Однако, если бы мы применили технику ROC к алгоритму найма и закончили с такой же оценкой DI, что и в нашем эксперименте, 1,0, она удовлетворяла бы правилу 4/5, установленному в трудовом законодательстве США (оценка DI не менее 0,8).

Использованная литература:

[1] Плейс, Г., Рагхаван, М., Ву, Ф., Клейнберг, Дж., И Вайнбергер, К. К. (2017). О справедливости и калибровке. В достижениях в системах обработки нейронной информации, страницы 5680–5689.

[2] Мориц Хардт, Эрик Прайс и Нати Сребро. Равенство возможностей в обучении с учителем. В достижениях в системах обработки нейронной информации, 2016.

[3] Камиран, Ф., Карим, А., Чжан, X. 2012. Теория принятия решений для классификации с учетом дискриминации. В Proceedings of the IEEE International Conference on Data Mining (ICDM 2012), Zaki M. J., Siebes A., Yu J. X., Goethals B., Webb G. I. & Wu X. (ред.). Компьютерное общество IEEE, 924–929

[4] Взрослый - Машинное обучение UCI. 1 мая. 1996 г., http://archive.ics.uci.edu/ml/datasets/Adult.

[5] Р.К. Беллами и др.., «AI Fairness 360: расширяемый инструментарий для обнаружения и смягчения алгоритмической предвзятости», в IBM Journal of Research and Development, vol. 63, нет. 4/5, стр. 4: 1–4: 15, 1 июля-сен. 2019.