Фаза 3: Смещение, основанное на внешнем виде в системах с искусственным интеллектом

Авторы: Джон Ангилери, Джозеф ДиПальма, Джон Ли и Зилин Ма

Для нашего последнего проекта в области когнитивных наук (CSCI 379) наша группа решила дополнительно изучить вопрос о расовых и гендерных предубеждениях в программном обеспечении для распознавания лиц. Это было продолжением нашего среднесрочного проекта, который, по нашему мнению, стал для нас плодотворным введением в обсуждение предвзятости и компьютерного программного обеспечения, но наш не слишком динамитный вывод заставил нас задуматься о том, что по этой теме есть больше оснований для освещения. .

Как мы обсуждали в нашем последнем посте, этот вопрос имеет первостепенное значение для обеспечения справедливого отношения к людям в нашем обществе. Поскольку компьютерные алгоритмы все больше играют роль в процессах кредитования банков, диагностике заболеваний и принятии решений, например, о том, кого нанимают / увольняют или сколько человек находится в тюрьме, статус равенства и справедливости в нашем обществе становится все более зависимым от целостность такого внедренного программного обеспечения.

На этот раз мы поступили немного иначе. Для нашего промежуточного проекта мы обучили и исследовали одну сверточную нейронную сеть (CNN). Для этого проекта мы подготовили тридцать четыре! С каждым экземпляром в нашем списке CNN мы вносили изменения в:

  1. демографическое представление набора обучающих данных,
  2. раскраска обучающих образов,
  3. и количество тренировочных эпох, по которым мы тренировали CNN.

Используя цветные изображения, мы обучили CNN классифицировать другие цветные изображения по полу, используя обучающие данные, которые…

  • состояла из одной расы на протяжении 15 эпох (всего четыре обученных сети из четырех рас),
  • состояла из единственной расы на протяжении 20 эпох (всего четыре обученных сети из четырех рас),
  • и состоял из всех, кроме одной расы за 20 эпох (всего четыре обученных сети из четырех рас).
  • Затем мы также провели обучение с пятикратной проверкой достоверности с полным набором данных за 40 эпох (всего пять обученных сетей). В отличие от приведенных выше, мы сделали эти CNN максимально эффективными.

Затем тот же процесс был повторен с использованием изображений в градациях серого (цвет: 17 + шкала серого: 17 = 34).

Мы хотели сосредоточиться на создании искусственных диспропорций в обучающих данных, чтобы увидеть, как это может повлиять на результаты классификации CNN. Мы полагали, что наша неубедительность в среднесрочном проекте отчасти была результатом того, что наш набор данных был «слишком равным». Вставляя преувеличенные расхождения в наш эксперимент, мы надеялись увидеть более очевидную причинно-следственную связь между неравным представлением в обучающих данных и неравномерной производительностью классификации.

Что мы сразу заметили, так это высокие результаты, продемонстрированные латиноамериканской и азиатской демографией (как мужчинами, так и женщинами), при этом не имея особого преимущества с точки зрения их представленности в данных обучения. Даже в тех случаях, когда мы тренировали нашу CNN без латиноамериканских или азиатских изображений, латиноамериканская или азиатская демография, соответственно, оставались лидерами с точки зрения гендерной классификации.

Пытаясь понять эту аномалию, наша группа предположила, что средний оттенок кожи лиц, обозначенных как латиноамериканец и / или азиат, больше похож на средний тон кожи всех четырех расовых групп, чем у белых и черных расовых групп. Чтобы увидеть, выдержит ли наше предположение хоть какое-то значение, мы запустили морфинг лица, чтобы получить среднее лицо каждого изображения в базе данных лиц Чикаго (набор данных, который мы снова использовали для обучения наших CNN). ), а также каждой отдельной расы.

Есть какое-нибудь интересное сходство? Вы решаете сами.

Помимо небольшого отклонения, которое было нашей «теорией среднего лица», у нашей группы действительно было несколько гипотез, которые мы хотели проверить ...

  1. Гипотеза: репрезентативные неравенства в обучающих данных приведут к неравенству в производительности классификации CNN, которая обучалась с ее помощью.
  2. Гипотеза: уменьшив различия в оттенках кожи и удалив информацию о цвете (с помощью методов градации серого), мы сможем уменьшить несоответствие между точностью классификации каждой расы.

В первую очередь, возможно, стоит гипотеза «здравого смысла». Он чисто предположил, что CNN не сможет классифицировать изображение расы, которую он не видел на тренировках. Мы не смогли точно подтвердить или опровергнуть эту теорию в нашей среднесрочной перспективе, но мы чувствовали, что могли бы дать некоторую полезную информацию в этом проекте, если бы просто немного поработали с обучающими данными.

Мы нашли некоторую поддержку этой гипотезе. Был ряд CNN, которые мы обучили этим плохо классифицированным изображениям демографии, которые они меньше всего видели во время обучения. Однако был ряд CNN, которые не приводили к значительному расхождению независимо от того, какое неравенство было в его обучающих данных.

Обоснование нашей второй гипотезы также довольно простое. Уменьшая различия между расами, возможно, появится возможность для логики, необходимой для классификации изображений разных рас, быть более похожими, чем в CNN с обучением по цвету. Таким образом, CNN, обученная серым, потенциально становится более эффективной.

Мы сочли, что для проверки этой гипотезы было бы наиболее полезно сравнить нашу сеть с лучшими показателями как для цвета, так и для шкалы серого, которые в каждом случае представляли собой обученные сети с пятикратной перекрестной проверкой, которые извлекли уроки из всеобъемлющего расового набора данных за 40 эпох. Мы обнаружили, что обученный серым телеканал CNN был более впечатляющим почти во всех отношениях. Для каждой из восьми демографических групп расы и пола точность классификации с обучением серым соответствовала или часто превышала точность классификации CNN с обучением по цвету. Восемь значений точности классификации CNN, обученной серому, имели более высокое среднее значение, более низкую дисперсию и более низкий диапазон (макс-мин), чем у CNN, обученной цветом.

Как и с самого начала нашего среднесрочного проекта, основная цель нашего исследования - помочь выявить способы, с помощью которых мы можем уменьшить предвзятость в программном обеспечении, и особенно в алгоритмах распознавания лиц. В стремлении лучше понять предвзятость и программное обеспечение, возможно, важно рассмотреть взаимосвязь между предвзятостью и производительностью. Нужно ли жертвовать производительностью, чтобы уменьшить систематическую ошибку? Есть ли компромисс в этом смысле? Или наоборот? В нашем проекте мы имели в своем распоряжении 34 CNN, обученных множеством различных способов, с получением множества различных результатов и, таким образом, прекрасной возможностью изучить этот вопрос.

Таким образом, мы построили график производительности (рассчитанный по средней результативности классификации среди восьми демографических групп расового и гендерного характера) с систематической погрешностью (определяемой дисперсией в точности классификации среди восьми демографических групп расового и гендерного характера). Мы обнаружили, что нет корреляции, отражающей такую ​​взаимосвязь. Это, возможно, означает (или, по крайней мере, не исключает возможности того), что такого компромисса нет. Этот вывод, безусловно, может вдохновить нас в наших взглядах на будущее разработки программного обеспечения. Из этого, конечно, следует, что предвзятость на самом деле не является жертвой, которую нужно приносить во имя развития наших технологических возможностей; это не неизбежное зло на пути к производительности. Фактически, это означает, что, находя новые и творческие способы улучшения наших технологий, мы сможем развить способность нашего программного обеспечения к превосходству, сохраняя при этом золотой стандарт справедливости.

Мы были невероятно возбуждены.

[1] Андре Эстева, Бретт Купрел, Роберто А. Новоа, Джастин Ко, Сьюзен М. Светтер, Хелен М. Блау и Себастьян Трун. Классификация рака кожи на уровне дерматологов с помощью глубоких нейронных сетей. Природа, 542 (7639): 115–118, 2017 .; Даниэль Китс Ситрон и Фрэнк Паскуале. Оцениваемое общество: надлежащая правовая процедура для автоматизированных прогнозов. 2014 г.