Справедливость

6 типов предвзятости ИИ, о которых должен знать каждый

В моем предыдущем блоге мы рассмотрели разницу между предвзятостью, справедливостью и объяснимостью в ИИ. Я включил общее представление о том, что такое Bias, но на этот раз мы рассмотрим более подробно.

Предвзятость проявляется в машинном обучении в самых разных формах. Важно учитывать, что обучение модели машинного обучения во многом похоже на воспитание ребенка.

Когда ребенок развивается, он использует такие чувства, как слух, зрение и осязание, чтобы учиться у окружающего мира. Их понимание мира, их мнения и решения, которые они принимают, во многом зависят от их воспитания. Например, ребенок, который растет и живет в сексистском сообществе, может никогда не осознать, что есть что-то предвзятое в том, как они относятся к разным полам. Модели машинного обучения точно такие же. Вместо того, чтобы использовать чувства в качестве входных данных, они используют данные - данные, которые * мы * им даем! Вот почему так важно постараться избежать предвзятости в данных, используемых для обучения моделей машинного обучения. Давайте подробнее рассмотрим некоторые из наиболее распространенных форм предвзятости в машинном обучении:

Историческая предвзятость

При сборе данных для обучения алгоритму машинного обучения практически всегда проще всего начать сбор исторических данных. Однако, если мы не будем осторожны, очень легко учесть предвзятость, которая присутствовала в исторических данных.

Возьмем, к примеру, Amazon; В 2014 году они приступили к созданию системы автоматического отбора соискателей на работу. Идея заключалась в том, чтобы просто накормить систему сотнями резюме и автоматически выбрать лучших кандидатов. Система была обучена на основе заявлений о приеме на работу за 10 лет и их результатов. Эта проблема? Большинство сотрудников Amazon были мужчинами (особенно на технических должностях). Алгоритм выяснил, что, поскольку в Amazon было больше мужчин, чем женщин, мужчины были более подходящими кандидатами и активно дискриминировали приложения, не относящиеся к мужчинам. К 2015 году весь проект пришлось свернуть.

Смещение образца

Смещение выборки возникает, когда ваши данные обучения неточно отражают структуру реального использования вашей модели. Обычно одна популяция либо сильно перепредставлена, либо недопредставлена.

Недавно я увидел выступление Дэвида Кина, и он привел действительно хороший пример систематической ошибки выборки.

При обучении системы преобразования речи в текст вам понадобится множество аудиоклипов вместе с соответствующими транскрипциями. Где лучше взять эти данные, чем аудиокниги? Что может быть плохого в таком подходе?

Что ж, оказывается, что подавляющее большинство аудиокниг рассказывают хорошо образованные белые мужчины среднего возраста. Неудивительно, что программное обеспечение для распознавания речи, обученное с использованием этого подхода, не работает, когда пользователь из другого социально-экономического или этнического происхождения.

На приведенной выше диаграмме показан коэффициент ошибок по словам [WER] для систем распознавания речи от крупных технологических компаний. Вы можете ясно видеть, что все алгоритмы хуже работают для черных голосов по сравнению с белыми.

Смещение ярлыка

Многие данные, необходимые для обучения алгоритмов машинного обучения, необходимо пометить, прежде чем они станут полезными. На самом деле вы сами довольно часто делаете это, когда заходите на веб-сайты. Вас попросили определить площади, на которых есть светофоры? Фактически вы подтверждаете набор меток для этого изображения, чтобы помочь обучить модели визуального распознавания. Однако способ, которым мы маркируем данные, сильно различается, и несоответствия в маркировке могут внести систематическую ошибку в систему.

Представьте, что вы тренируете систему, маркируя львов с помощью прямоугольников на изображениях выше. Затем вы показываете своей системе это изображение:

Досадно, что он не может идентифицировать очень очевидного льва на картинке. Размечая только лица, вы непреднамеренно смещали систему в сторону изображений львов, обращенных вперед!

Смещение агрегирования

Иногда мы агрегируем данные, чтобы упростить их или представить определенным образом. Это может привести к смещению независимо от того, произошло ли это до или после создания нашей модели. Взгляните, например, на эту диаграмму:

Он показывает, как увеличивается заработная плата в зависимости от количества лет, отработанных на работе. Здесь есть довольно сильная корреляция: чем дольше вы работаете, тем больше вам платят. А теперь давайте посмотрим на данные, которые использовались для создания этого агрегата:

Мы видим, что для спортсменов все обстоит как раз наоборот. Они могут зарабатывать высокие зарплаты на ранних этапах своей карьеры, когда они все еще находятся на пике своей физической формы, но затем они падают, когда они перестают соревноваться. Объединяя их с другими профессиями, мы делаем наш алгоритм предвзятым против них.

Подтверждение предвзятости

Проще говоря, предвзятость подтверждения - это наша склонность доверять информации, которая подтверждает наши существующие убеждения, или отвергать информацию, которая не соответствует действительности. Теоретически я мог бы построить самую точную систему машинного обучения без предвзятости ни в данных, ни в моделировании, но если вы собираетесь изменить результат на основе своего собственного «чутья», это не имеет значения.

Предвзятость подтверждения особенно распространена в приложениях машинного обучения, где требуется проверка человеком, прежде чем предпринимать какие-либо действия. Использование ИИ в здравоохранении показало, что врачи пренебрегают алгоритмической диагностикой, потому что она не соответствует их собственному опыту или пониманию. Часто при обследовании оказывается, что врачи не читали новейшую исследовательскую литературу, в которой указываются несколько иные симптомы, методы или результаты диагностики. В конце концов, существует не так много исследовательских журналов, которые может прочитать один врач (особенно при постоянном спасении жизней), но система машинного обучения может обработать их все.

Предвзятость в оценке

Представим, что вы создаете модель машинного обучения для прогнозирования явки избирателей по всей стране во время всеобщих выборов. Вы надеетесь, что, взяв ряд характеристик, таких как возраст, профессия, доход и политическая ориентация, вы сможете точно предсказать, проголосует кто-то или нет. Вы строите свою модель, используете местные выборы, чтобы проверить ее, и действительно довольны своими результатами. Кажется, вы можете правильно предсказать, проголосует кто-то или нет в 95% случаев.

По мере того, как приближаются всеобщие выборы, вы внезапно очень разочарованы. Модель, которую вы потратили на разработку и тестирование целую вечность, была правильной только в 55% случаев - лишь ненамного лучше, чем случайное предположение. Плохие результаты - пример предвзятости оценки. Оценивая свою модель только на людях в вашем районе, вы непреднамеренно создали систему, которая хорошо работает только для них. Другие районы страны с совершенно другими структурами голосования не были должным образом учтены, даже если они были включены в данные вашего первоначального обучения.

Заключение

Вы увидели шесть различных способов, которыми предвзятость может повлиять на машинное обучение. Хотя это не исчерпывающий список, он должен дать вам хорошее представление о наиболее распространенных способах предвзятости систем машинного обучения. Если вам интересно читать дальше, я бы порекомендовал эту статью от Mehrabi et al.