2020 год предоставил беспрецедентное представление о несправедливости и классовом дисбалансе в нашем обществе, заставив всех нас столкнуться с важными вопросами в нашей карьере. В науке о данных были вдохновлены исследования и разговоры об этике данных, предвзятости данных и последствиях использования продуктов данных для принятия решений, меняющих жизнь. Хотя мотивация для этой области исследований росла из года в год, в 2020 году она достигла оглушительного пика. В прошлом году я лично часами размышлял о последствиях моделей науки о данных, и мне очень интересно провести время в 2021 году. улучшение моей способности защищать мои модели от предвзятости. Эта мотивация послужит катализатором в следующей серии статей, а эта конкретная часть послужит обзором.

В невероятной книге Кэти О’Нил Оружие математического разрушения [1] она представляет три основных элемента ОМУ: непрозрачность, масштаб и урон. Хотя ее книга посвящена более общему обсуждению алгоритмов, мы можем напрямую перенести эти три столпа в приложения машинного обучения. Непрозрачность — это свойство алгоритмов машинного обучения быть закрытыми, скрытыми за организационной стеной от людей, на которых они влияют. Например, в системе правосудия широко известен алгоритм присвоения заключенным уровня риска, предназначенный для оценки их шансов на рецидив [2] (вероятность возвращения в тюрьму после освобождения). Оценка была присвоена в результате ответов на вопросник, без предоставления заключенным какой-либо информации о том, как их ответы повлияли на их оценки. Сама анкета выявила дополнительные этические проблемы, заигрывая с очень реальными примерами систематического расизма, избегая при этом пересечения юридических границ. Во многих случаях законы о акционерном капитале настолько узки по своему охвату, что корпорации могут легко их обойти, используя при этом лучших юристов мира на гонораре в случае судебного иска.

Масштаб — это свойство алгоритмов воздействовать на большие группы людей, и идея о том, что небольшая, постепенная проблема или предвзятость могут взорваться при масштабировании модели. Исходя из предыдущего примера, мы можем представить, что использование этой модели рецидивизма в окружных тюрьмах по сравнению с федеральными тюрьмами имеет разный уровень и глубину эффекта. Приговоры к тюремному заключению, как правило, более серьезны, и влияние этих оценок риска может длиться годами или даже десятилетиями, когда судья использует их для вынесения приговора. Наконец, у вас есть урон.

Алгоритмы могут попадать в ядовитые петли обратной связи, которые умножают первоначальный ущерб. Когда заключенный возвращается в мир, его возможности крайне ограничены, отчасти из-за сохраняющейся стигматизации бывших преступников. Кроме того, в некоторых штатах США действуют четкие законы, требующие от бывших преступников признавать эти предыдущие нарушения при приеме на работу. Гражданин, который не может найти работу, вероятностно более вероятно [3] вернется к тому самому образу жизни, который, возможно, и привел его в тюрьму. Эта петля обратной связи является результатом систематического угнетения работающей бедноты, и, в частности, в США нет системы социальной защиты для реабилитации и помощи заключенным в возвращении их жизни в нормальное русло. Давайте теперь поговорим о конкретных типах предвзятости, наблюдаемых в машинном обучении, и рассмотрим теоретические последствия каждого из них. В будущем я буду глубоко изучать каждую из них, и вместе мы узнаем, как решать эти проблемы непосредственно в наших приложениях и проектах машинного обучения. А пока мы должны помнить об этих трех столпах плохих алгоритмов: непрозрачности, масштабе и повреждении. Это обеспечивает прекрасную ментальную основу, которую мы можем использовать, чтобы приблизиться к областям потенциальной озабоченности.

Предвзятость данных является этической и практической проблемой при подходе к любому приложению машинного обучения. Предвзятость может проявляться множеством способов, не все из которых нанесут ущерб вашему продукту или бизнесу. Непреднамеренные последствия ваших моделей машинного обучения могут даже привести к увеличению прибыли за счет определенных демографических показателей. Судя по моему исследованию по этому вопросу, нам еще предстоит достичь общенационального или глобального консенсуса в отношении того, каковы основные типы систематической ошибки данных. Я попытаюсь обобщить «обычные подозреваемые» ниже, а в конце статьи вы можете найти несколько мест, которые я искал, чтобы определить, какие аспекты предвзятости обсуждать [4][5]:

  1. Выборочная погрешность
  2. Смещение измерения
  3. Смещение стабильности
  4. Отзыв смещения
  5. Ошибка наблюдения/подтверждения
  6. Предвзятость ассоциации

Смещение выборки (также называемое смещением выборки) описывает явление, когда алгоритм машинного обучения использует данные для обучения, которые не являются репрезентативными для реальной среды, в которой он будет использоваться. Хотя это может привести к плохому обобщению (способность модели достигать хороших результатов на новых данных), и опытный специалист по машинному обучению сможет увидеть, что при регулярном обслуживании и тестировании могут быть случаи, когда определенный уровень ошибки считается приемлемый. Давайте рассмотрим гипотетический пример студенческих грантов/помощи. Во многих случаях способность поступающего на бакалавриат получать федеральную помощь частично зависит от дохода его семьи. Это не единственный фактор, и хотя система образования имеет тенденцию быть непрозрачной с использованием алгоритмов в этом отношении, давайте просто предположим, что это важный фактор. Будучи иждивенцем, учащийся должен будет записывать точные показатели родительского дохода, независимо от реальности его отношений с родителями. Если родитель не поддерживает образовательные усилия своего ребенка, учащийся может потерять доступ к важной финансовой помощи. Вы можете видеть, как это может привести к широко распространенной и разрушительной задолженности по студенческим кредитам.

Смещение измерения связано с распределением данных в приложениях машинного обучения. Когда специалист по машинному обучению обучает модель на данных, отличных от данных, которые модель видит в производственной среде, возникает систематическая ошибка измерения. В случае распознавания изображений набор данных может быть скомпилирован для обучения с использованием общедоступных изображений, взятых из Интернета. Однако если применение модели включает в себя оценку фотографий с камеры в реальном времени, обучение будет проводиться на другом распределении данных. Это может привести к «слепым пятнам», когда точность модели существенно падает при воздействии на представителей определенных демографических групп или ситуаций.

Смещение стабильности — это предположение о том, что данные стабильны, а выбросы несущественны. В приложениях машинного обучения принято отбрасывать выбросы, используя какое-то эмпирическое правило. Обрезка — распространенный способ сделать это, избавившись от верхних и нижних 5% каждой функции. Можно также использовать статистическое правило отбрасывания данных, содержащих наблюдения, которые более чем в 2 раза отличаются от среднего значения. Проблема здесь в том, что эта политика может полностью исключить определенную группу людей. Представьте, что мы работаем в банке и рассматриваем кредитные заявки. Наш установленный конвейер данных может отсечь 10% нижних получателей дохода из обучающих данных и автоматически отклонить эти заявки. Другим аспектом книги О’Нил, который мне показался особенно важным, было ее наблюдение о том, что бедные люди и рабочий класс с большей вероятностью будут иметь алгоритмы, принимающие решения, влияющие на их жизнь, тогда как богатые, скорее всего, будут оцениваться человеком. Это важно иметь в виду, потому что, хотя алгоритмы воспринимаются как имеющие определенный уровень объективности, они зависят от параметров их создателей. К их выводам следует относиться скептически, особенно когда решения модели оказывают существенное влияние на жизнь и материальные условия людей.

Смещение припоминания — это подмножество смещения измерения, связанное с маркировкой данных. Это происходит, когда данные помечены непоследовательно. Часто этап маркировки данных в проекте машинного обучения выполняется группой людей, и их способность поддерживать согласованность зависит от проекта. Допустим, мы создаем модель машинного обучения, которая берет изображения фруктов из супермаркета и присваивает им ярлыки «спелый», «недоспелый» и «гнилой». Если бы вы и я маркировали обучающие данные вручную, я могу гарантировать, что моя способность определять спелые и недозрелые плоды будет весьма непоследовательной.

Предвзятость наблюдения/подтверждения возникает, когда исследователь приступает к проекту с предвзятыми представлениями и представлениями об имеющихся данных и принимает решения на основе этих вещей. Например, в гипотетической ситуации, когда я создаю модель машинного обучения, которая оценивает учителей на основе оценок их учеников, я могу предположить, что плохие оценки означают столь же плохого учителя. Однако вполне может быть, что учитель был выбран вручную из-за его способности улучшить обучение и оценки борющихся учеников, и временные рамки, в которых я оцениваю учителя, находятся в начале периода их сосредоточенных усилий.

Последний тип предвзятости, который я хочу обсудить, — это предвзятость ассоциации. Это особенно опасная форма предвзятости, при которой данные, используемые для приложений машинного обучения, умножают и усугубляют культурные предубеждения. Допустим, я создаю модель машинного обучения для LinkedIn, которая работает, чтобы рекомендовать работу пользователям. Если я сосредоточусь на нишевом рынке технических вакансий, есть довольно большая вероятность, что я буду рекомендовать работу разработчика и работу по науке о данных почти исключительно белым мужчинам, в зависимости, конечно, от моего доступа к значимым данным. Практики должны оценивать и балансировать свои данные об обучении на основе предполагаемого результата в некоторых отношениях: если мы хотим, чтобы больше женщин занималось технологиями, мы должны быть уверены, что данные об обучении содержат репрезентативную долю женщин.

Есть много новых и появляющихся категорий предубеждений для машинного обучения. Это, безусловно, область первостепенной важности, и в ней ведутся обширные исследования. В следующих статьях я постараюсь более подробно проанализировать каждый из этих шести типов предубеждений и показать, как практикующий врач может оценивать свои собственные модели по отношению к каждому из них. Это удвоит возможность обучения для меня, поскольку я посвящаю себя исследованию и внедрению этих практик в рамках своей карьеры в науке о данных. Надеюсь, вам понравилась эта статья, и следите за новостями от меня по различным темам.

Источники:

[1] О’Нил, Кэти (2016). Оружие математического разрушения. https://weaponsofmathdestructionbook.com/

[2] Propublica (2016).Machine Bias. https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing

[3] Ю Тяньинь (30 января 2018 г.). Трудоустройство и рецидивизм. https://www.ebpsociety.org/blog/education/297-employment-recidivism

[4] Лим, Хенгти (20 июля 2020 г.). 7 типов смещения данных в машинном обучении. https://lionbridge.ai/articles/7-types-of-data-bias-in-machine-learning/

[5] Forsee Medical (21 апреля 2020 г.). Что такое предвзятость в машинном и глубоком обучении? https://www.foreseemed.com/blog/bias-in-machine-learning