Является ли искусственный интеллект расистским? (И другие проблемы)

Когда мы думаем об искусственном интеллекте, две основные очевидные связи - это потеря работы и летальное автономное оружие. Хотя роботы-убийцы могут стать реальной угрозой в будущем, последствия автоматизации - сложное явление, которое эксперты все еще активно анализируют. Весьма вероятно, что, как и в случае любой крупной промышленной революции, рынок постепенно стабилизируется. Достижения в области технологий создадут новые типы рабочих мест, которые в настоящее время немыслимы, которые позже будут нарушены новым крупным технологическим поглощением. Мы видели это несколько раз в современной истории и, вероятно, увидим это снова.

Третья серьезная проблема - этическое влияние ИИ. Здесь возникает вопрос: является ли искусственный интеллект расистским?

Короче ... короткого ответа нет.

А как насчет длинного ответа? Сказки о Google, морских котиках и гориллах

Чтобы ответить на этот вопрос, нам сначала нужно определить, что такое расизм.

Расизм: убеждение, что все представители каждой расы обладают характеристиками, способностями или качествами, присущими этой расе, особенно для того, чтобы отличать ее от другой расы или расы как ниже или выше их. ~ Оксфордские словари

Расизм связан с обобщением определенных характеристик на всех членов расы. Обобщение - ключевая концепция машинного обучения, особенно в алгоритмах классификации. Индуктивное обучение связано с выводом общих понятий из конкретных примеров. Большинство методов контролируемого обучения пытаются аппроксимировать функции, чтобы предсказать категории входных значений с максимально возможной точностью.

Функция, которая слишком точно соответствует нашему обучающему набору, создает переобучение. На практике он не может получить правильную общую функцию при различных входных данных. С другой стороны, функция, которая не соответствует набору данных, приводит к недостаточному соответствию. Следовательно, созданная модель слишком проста для получения значимых и надежных результатов.

Специалисты в этой области знают, что классификация - это поиск компромисса между переоборудованием и недостаточным подбором. Действительно, модель должна выводить общие правила из определенного обучающего набора. Это явно ведет к серьезной проблеме: если данные, используемые для обучения модели, смещены, модель даст смещенный результат.

Известный случай, показывающий последствия необъективных данных, - это неправильная маркировка двух молодых афроамериканцев. Google Фото, в котором недавно была реализована автоматическая маркировка изображений, классифицировал двух подростков как «горилл» (все ссылки указаны в конце страницы). Google подвергся резкой критике, и кто-то начал задаваться вопросом, можно ли специально обучить машину расистскому поведению.

Команда Google немедленно извинилась, а представитель компании написал в Твиттере: «До недавнего времени [Google Фото] путали белые лица с собаками и тюленями. Машинное обучение - это сложно ».

Однако на самом деле причина ошибочной классификации вовсе не в расизме. Причина этой ошибки кроется в обучающем наборе.

Супермен, преступность и расизм

Чтобы понять, что мы только что обсудили, давайте рассмотрим простой пример неправильной классификации.

Предположим, мы хотим предсказать, преступник Кларк Кент или нет. Вот набор данных, который у нас есть:

В нашем тренировочном наборе представлены 5 человек, принадлежащих к трем разным расам: криптонианцы, люди и роботы.

Мы собираемся обучить классификатор дерева решений, чтобы предсказать, будет ли Кларк Кент, 31 криптонианец, классифицировать как преступника.

Сначала обучаем модель:

clf = tree.DecisionTreeClassifier()
X_train = data[['Sex', 'Age', 'Race']]
Y_train = data[['Criminal']]
clf.fit(X_train, Y_train)

Затем мы прогнозируем категорию «Преступник» на основе обученной модели:

# 1 -> Male
# 31 -> Age
# 1 -> Kryptonian
pred = clf.predict([[1, 31, 1]])
print('Is Clark Kent a criminal? Prediction: ',pred[0])

Как видим, Кларк Кент классифицирован как преступник. Давайте проверим важность функций, чтобы понять, как переменные влияют на окончательный результат работы классификатора.

Вот. Основываясь на наборе данных, который мы использовали для обучения модели, наиболее важной функцией является переменная Race.

Предвзятость в компьютерном зрении

Этот простой пример показывает важность сбора и организации данных. Когда эти два действия выполняются плохо, этические и культурные предубеждения могут быть закодированы в модели машинного обучения. Как сообщается в замечательной статье журнала Nature (ссылка в конце), 45% наиболее часто используемых баз данных изображений в компьютерном зрении поступают из США. На Китай и Индию, на которые приходится 36% населения мира, приходится всего 3% данных в наборе данных ImageNet. Этот дисбаланс непреднамеренно создает предвзятость и объясняет, почему алгоритмы компьютерного зрения маркируют фотографию невесты из Северной Индии как «искусство перформанса».

Джой Буоламвини, исследователь из Массачусетского технологического института, несколько лет назад обратилась к проблеме отсутствия разнообразия в данных, используемых для обучения алгоритмов компьютерного зрения. Она заметила, что, хотя самые известные системы распознавания лиц в Массачусетском технологическом институте правильно классифицируют пол почти каждого белого человека, точность резко падает по мере того, как оттенки кожи становятся темнее. Наименьшая точность была у темнокожих женщин с частотой ошибок 34%.

Как Microsoft испортила бота за 24 часа

Смещение и ошибки случаются не только в задачах классификации изображений. Обработка естественного языка - это область искусственного интеллекта, в которой основное внимание уделяется обработке человеческого языка. Общая методология, разделяемая многими алгоритмами НЛП, - отображение слов в геометрические векторы. Этот метод рассматривает документы как набор векторов, что позволяет выполнять вычисления между словами. Болукбаши и его коллеги в своей статье «Мужчина для программиста, как женщина для домохозяйки? Устранение предвзятости встраивания слов », покажите, как простой алгоритм аналогий, обученный на статьях в Google Новостях, демонстрирует гендерные стереотипы между мужчинами и женщинами. В их отчете модель утверждает, что «мужчина» относится к «доктору», а «женщина» - к «медсестре '.

Это напоминает схожую полемику: в 2016 году Microsoft развернула TayTweets Twitter-бота, обученного посредством случайных бесед в Twitter. Идея была невероятно многообещающей из-за большого количества текстовых данных, доступных каждую секунду в Twitter. В любом случае, само собой разумеется, агент начал твитнуть женоненавистнические и расистские высказывания менее чем за 24 часа. Кто бы мог подумать?

TL;DR

И, наконец, мы подошли к концу нашего анализа. Вся суть этой статьи состоит в том, чтобы поднять этический вопрос, связанный с ИИ, который часто упускается из виду. В то время как ученым, инженерам и специалистам по обработке данных необходимо устранить дисбаланс в обучающих наборах, пользователи и неспециалисты должны понимать, что искусственный интеллект основан на математике. А математика, как мы все знаем, может быть чрезвычайно сложной. Нейронные сети, используемые в классификации изображений, считаются черными ящиками. Результаты, которые они дают, основаны на вычислениях чрезвычайно высокой размерности и не могут быть полностью контролируемы - даже если компании прилагают огромные усилия, чтобы понять промежуточные результаты, с потрясающими результатами (посмотрите мою статью о Стиле нейронной передачи, основанной на этой концепции) .

Тем не менее, у нас есть последний вопрос, который, надеюсь, будет обсужден в комментариях ниже. Является ли ИИ расистским?

Спасибо за чтение. Не стесняйтесь оставлять комментарии для любых комментариев или предложений!

Вы можете найти больше обо мне и моих проектах на maurocomi.com. Вы также можете найти меня в Linkedin или написать мне по электронной почте. Я всегда готов поболтать или поработать над новыми замечательными проектами.

Использованная литература:

Google Photos отмечает двух афроамериканцев как горилл с помощью программного обеспечения для распознавания лиц
Когда в воскресенье вечером уроженец Бруклина Джеки Алсин зашел на сайт Photos, он был шокирован, обнаружив альбом под названием… www.forbes.com

ИИ может быть сексистским и расистским - пора сделать это справедливо
Когда Google Translate переводит новостные статьи, написанные с испанского на английский, фразы, относящиеся к женщинам, часто превращаются в… www.nature.com

Расистский и сексистский ИИ может быть более серьезной проблемой, чем потеря работы
Джой Буоламвини проводила в Массачусетском технологическом институте исследование того, как компьютеры распознают лица людей, когда она начала испытывать… www.forbes.com

Https://www.theverge.com/2016/3/24/11297050/tay-microsoft-chatbot-racist