Машинное обучение и искусственный интеллект становятся все более и более повсеместными и неотъемлемой частью нашей жизни. Наряду с развитием машинного обучения и искусственного интеллекта растет озабоченность по поводу предвзятости машинного обучения.

В этой статье мы поговорим об одной из горячих тем этики машинного обучения - как уменьшить предвзятость машинного обучения. Мы также обсудим инструменты и методы для этого.

Предвзятость в машинном обучении

Предвзятость машинного обучения, также иногда известная как предвзятость в искусственном интеллекте, - это явление, которое возникает, когда алгоритм дает результаты, систематически предвзятые из-за ошибочных предположений в процессе машинного обучения.

Предубеждение может быть предубеждением в пользу или против человека, группы или вещи, которые считаются несправедливыми.

Примеры предвзятости машинного обучения

1. Встраивание слов. Внедрение встраивания слов произвело революцию в решении различных проблем понимания естественного языка, поскольку они смогли уловить простую взаимосвязь между словами:

King — Man + Woman = Queen

Одни и те же вложения слов также фиксировали следующие отношения:

Computer-programmer — Man + Woman = Home-Maker

2. Инструмент подбора персонала Amazon на основе искусственного интеллекта: Amazon несколько лет назад отказалась от инструмента подбора персонала на основе искусственного интеллекта. Который якобы сам себя научил, что кандидаты-мужчины предпочтительнее. Он наказывал резюме, которое содержало слово женское, например, капитан женского шахматного клуба. А также понизили рейтинг выпускников женских колледжей.

Amazon отредактировал программы, чтобы сделать их нейтральными по отношению к этим конкретным условиям. Но это не было гарантией того, что машины не разработают другие способы сортировки кандидатов, которые могут оказаться дискриминационными.

3. COMPAS (Профилирование исправительных правонарушителей для альтернативных санкций): это, пожалуй, самый обсуждаемый пример систематической ошибки машинного обучения. COMPAS был алгоритмом, который использовался в судебных системах США для прогнозирования вероятности того, что обвиняемый станет рецидивистом. Модель предсказывала вдвое больше ложных срабатываний рецидивов для чернокожих правонарушителей (45%), чем у белых преступников (23%).

Теперь мы поняли, что предвзятость машинного обучения может серьезно повлиять на нашу жизнь. Давайте разберемся, каковы различные типы предубеждений или различные факторы, вызывающие предвзятость машинного обучения.

Типы / причины систематической ошибки машинного обучения

Смещение данных

Предположим, что определенные элементы набора данных более взвешены и / или представлены, чем другие. Тогда полученную ошибку машинного обучения можно отнести к данным.

Смещенный набор данных не точно отражает вариант использования модели, что приводит к искаженным результатам, низким уровням точности и аналитическим ошибкам.

Систематическая ошибка данных может быть разделена на следующие типы:

1. Смещение выборки / смещение выборки: использованные данные либо недостаточно велики, либо достаточно репрезентативны для обучения системе.

Например, Если система распознавания лиц обучена в первую очередь на изображениях белых мужчин. Эти модели имеют значительно более низкие уровни точности для женщин и людей разных национальностей.

2. Предрассудки / предубеждения на ассоциациях: данные, используемые для обучения системы, отражают существующие предрассудки, стереотипы и ошибочные социальные предположения, тем самым внося те же самые реальные предубеждения в само машинное обучение.

Например, использование данных о медицинских профессионалах, которые включают только медсестер-женщин и врачей-мужчин, таким образом увековечит реальный гендерный стереотип в отношении медицинских работников в компьютерной системе.

3. Исключение смещения: это случай удаления ценных данных, которые считаются неважными. Это также может произойти из-за систематического исключения определенной информации.

Например, представьте, что у вас есть набор данных о продажах клиентов в Америке и Канаде. 98% клиентов из Америки, поэтому вы решаете удалить данные о местоположении, считая их неактуальными. Однако это означает, что ваша модель не заметит того факта, что ваши канадские клиенты тратят в два раза больше.

4. Ошибка измерения: данные, собранные для обучения, отличаются от данных, собранных в реальном мире, или когда ошибочные измерения приводят к искажению данных.

Например, в наборах данных распознавания изображений, где обучающие данные собираются с помощью камеры одного типа, а производственные данные собираются с помощью другой камеры. Ошибка измерения также может возникать из-за несогласованности аннотаций на этапе маркировки данных проекта.

Могут существовать и другие типы систематической ошибки машинного обучения, истоки которых НЕ связаны с данными. Примеры такого предвзятого отношения к машинному обучению:

1. Систематическая ошибка алгоритма: когда есть проблема в алгоритме, выполняющем вычисления, необходимые для машинного обучения. Алгоритм либо поддерживает, либо неоправданно противостоит определенной части населения.

2. Смещение привязки: возникает, когда выбор показателей и данных основан на личном опыте или предпочтении определенного набора данных. За счет «привязки» к этому предпочтению модели строятся на предпочтительном наборе, который может быть неполным или даже содержать неверные данные, приводящие к неверным результатам.

Например, если учреждение, занимающееся сбором данных, специализируется на определенной демографической или сопутствующей патологии, набор данных будет в значительной степени ориентирован на эту информацию. Если этот набор затем применяется в другом месте, сгенерированная модель может рекомендовать неправильные процедуры или игнорировать возможные результаты из-за ограниченной доступности исходного источника данных.

3. Предвзятость подтверждения / предвзятость наблюдателя: это приводит к тенденции выбирать исходные данные или результаты модели, которые соответствуют текущим убеждениям или гипотезам. Полученные результаты и выходные данные модели также могут усилить предвзятость подтверждения конечным пользователем, что приведет к плохим результатам.

Методы уменьшения систематической ошибки машинного обучения

Ниже приведены некоторые из лучших практик, которым вы можете следовать, чтобы уменьшить предвзятость машинного обучения:

1. Выберите данные обучения, которые являются надлежащим образом репрезентативными и достаточно большими, чтобы противодействовать распространенным типам систематической ошибки машинного обучения, такой как систематическая ошибка выборки и предубеждение.

2. Протестируйте и подтвердите, чтобы убедиться, что результаты систем машинного обучения не отражают предвзятость, вызванную алгоритмами или наборами данных.

3. Наблюдайте за системами машинного обучения, когда они выполняют свои задачи, чтобы не допустить появления предубеждений из-за сверхурочной работы, поскольку системы продолжают учиться в процессе работы. Анализ субпопуляции - один из наиболее разумных способов отслеживания производительности модели с течением времени.

4. Используйте многопроходную аннотацию для любого проекта, в котором точность данных может быть неточной. Примеры этого включают анализ тональности, модерацию контента и распознавание намерений.

Инструменты и методы для выявления и снижения предвзятости машинного обучения:

В дополнение к вышеупомянутым методикам существует несколько инструментов и методов, которые могут помочь обнаружить систематическую ошибку машинного обучения, а в некоторых случаях даже устранить ее.

  1. Инструмент Google "Что если"

Google’s What-If Tool (WIT) - это интерактивный инструмент, который позволяет пользователю визуально исследовать предвзятость машинного обучения. Он предоставляет способ анализа наборов данных в дополнение к обученным моделям TensorFlow.

Одним из примеров WIT является возможность вручную редактировать примеры из набора данных и видеть эффект этих изменений с помощью связанной модели. Он также может создавать графики частичной зависимости, чтобы проиллюстрировать, как меняются прогнозы при изменении функции.

Как только систематическая ошибка машинного обучения обнаружена, WIT может применять различные критерии справедливости для анализа производительности модели (с оптимизацией для групповой неосведомленности или равных возможностей).

2. IBM AI Fairness 360

AI Fairness 360 от IBM - еще один инструментарий для выявления и устранения предвзятости в моделях машинного обучения. AI Fairness 360 - это набор инструментов с открытым исходным кодом, который включает более 70 показателей справедливости и 10 алгоритмов устранения предвзятости, которые могут помочь вам обнаружить предвзятость и устранить ее.

Алгоритмы смягчения смещения включают оптимизированную предварительную обработку, повторное взвешивание, регуляризатор устранения предубеждений и другие. Метрики включают Евклидово и Манхэттенское расстояние, разность статистической четности и многие другие.

Набор инструментов разработан так, чтобы быть открытым, чтобы исследователи могли добавлять свои собственные показатели справедливости и алгоритмы миграции.

3. Анализ субпопуляции:

Анализ субпопуляции - это процедура рассмотрения только целевой субпопуляции из всего набора данных и вычисления показателей оценки модели для этой совокупности. Этот тип анализа может помочь и определить, благоприятствует ли модель или дискриминирует определенную часть населения.

Один из способов выполнить анализ субпопуляции - использовать pandas, фильтруя целевую субпопуляцию как новый фрейм данных, а затем вычисляя метрику с учетом для каждого из этих фреймов данных. Еще один более разумный способ проведения анализа подгруппы населения - использование atoti для анализа подгруппы населения.

atoti использует всю мощь OLAP для нарезки предсказаний модели. Следовательно, преимущества использования atoti включают:

  • Вы можете разрезать данные по своему усмотрению (создавать гибкие сегменты данных)
  • Это позволяет создавать ведра на лету
  • Вы можете рассчитать различные показатели за несколько щелчков мышью, используя возможности кубов OLAP.

Вы можете проверить этот блокнот, чтобы начать анализ подгруппы населения в atoti и увидеть, насколько он лучше других методов.

4. debias-ml:

Debias-ml - это практичный, объяснимый и эффективный подход к снижению предвзятости в алгоритмах машинного обучения.

DebiasML - это новое приложение передискретизации. Хотя передискретизация и популярна для решения проблем с дисбалансом данных, она не используется для устранения систематической ошибки. При тестировании на наборе данных UCI для взрослых DebiasML превосходит Generative Adversarial Networks (GAN) по многим параметрам. Это приводит к значительно более высокому баллу F1 (целых + 17%).

Вывод:

Машинное обучение и искусственный интеллект показали большие перспективы в области беспилотных автомобилей, распознавания рака на рентгенограммах и прогнозирования того, является ли кредит безопасным или нет (и это лишь некоторые из них). Но машинное обучение и искусственный интеллект имеют свои преимущества и проблемы. Одна из ключевых проблем - наличие предвзятости в классификациях и прогнозах машинного обучения.

Эти предубеждения могут принести больше вреда, чем пользы. У них есть последствия, основанные на решениях, принятых на основе модели машинного обучения. Поэтому важно понимать, как предвзятость вводится в модели машинного обучения, как ее проверять, а затем как ее устранять.

В этой статье мы обсудили различные типы систематической ошибки машинного обучения. Обсудили лучшие практики по снижению систематической ошибки машинного обучения. И, наконец, перечислил некоторые инструменты и методы для обнаружения и, следовательно, уменьшения предвзятости машинного обучения.

Каждую неделю мы анализируем твиты в сообществе специалистов по науке о данных и публикуем еженедельный отчет о самых популярных темах Twitter.

Ознакомьтесь с главными тенденциями и узнайте, как часто тема предвзятости машинного обучения попадает в список самых популярных тем в Твиттере!

Для других подобных интересных случаев использования посетите наши GitHub и Medium.