Вопросы, которые мы все должны задавать

Многие новаторы в области искусственного интеллекта и машинного обучения сталкиваются с проблемой обучения своих технологий. Данные, которые они используют для обучения своих алгоритмов, ограничены источниками из Интернета или ресурсов добросовестного использования, которые открыты для предубеждений или неадекватны для того, чтобы не включать широкий круг людей.

Например, вот несколько быстрых поисков изображений в Google, которые помогают визуализировать несоответствие в инклюзивности и репрезентации. Следующие результаты получены при поиске «женщина», «мужчина», «волосы» и «красивая улыбка».

Вопросы возникают, когда ИИ сталкивается с культурными стереотипами, семантическими и системными предубеждениями, которые десятилетиями культивировались в сети. Многие из нас были бессознательно вынуждены принимать эти предубеждения как «нормы»; программирование ИИ выявляет эти предубеждения и помещает их проблематичный характер в контекст, заставляя нас быть более справедливыми и ответственными. Многие задаются вопросом, является ли ИИ по своей природе предвзятым, потому что его обучают люди, которые сами по себе несовершенны.

Вопросы

Ответ заключается в том, чтобы задать два ключевых вопроса:

1) Какие данные используются для обучения ИИ, откуда они берутся и являются ли они данными «полного спектра»?

2) Предпринимаются ли с нуля сознательные усилия по внедрению в ИИ систем, предотвращающих предвзятость?

Почему ИИ становится предвзятым

Когда все сделано неправильно, часто можно увидеть расистские и женоненавистнические характеристики в машинах, которые обучаются на данных, полученных из Интернета, или в которых с самого начала не было предпринято серьезных усилий для устранения предвзятости.

Следующие примеры быстро показывают, почему использование Интернета в качестве среды для создания наборов данных в машинном обучении проблематично и способствует распространению ранее существовавших человеческих предубеждений.

1) Microsoft и их чат-бот в Твиттере, Тэй превратился в прогитлеровца и расиста примерно за день, опубликовав в Твиттере такие утверждения, как:

«Буш совершил 11 сентября, и Гитлер справился бы с этим лучше, чем та обезьяна, которую мы имеем сейчас. Дональд Трамп — единственная надежда, которая у нас есть».

Tay изучал и извлекал данные из того, что люди писали в Интернете.

2) Недавние исследования показывают, что ИИ, обученный на стандартном тексте из Интернета, приводит к тому, что он связывает европейско-американские имена с приятными словами, такими как подарок или счастливый, а афроамериканские имена — с неприятными словами.

3) Beauty.AI провел конкурс красоты, который оценивал искусственный интеллект. Было загружено 6000 селфи из 100 разных стран. Из 44 победителей горстка была азиатской. Остальные были белыми, кроме одного. ИИ не учат намеренно, что люди с белой кожей красивее, однако он предполагает, что если данные, которые он получает, состоят в основном из белых людей.

Алекс Жаворонков, главный научный сотрудник Beauty.AI, в The Guardian объясняет важность разнообразных наборов данных:

«Хотя существует ряд причин, по которым алгоритм отдавал предпочтение белым людям, главная проблема заключалась в том, что данные, которые проект использовал для установления стандартов привлекательности, не включали достаточное количество представителей меньшинств… Если в наборе данных не так много цветных людей, то у вас могут быть предвзятые результаты». сказал он в то время.

Ответы

Вот как построить искусственный интеллект без предубеждений:

1) Создать «полный спектр» наборов данных, которые представляют собой базу данных, созданную с нуля, свободную от присущей предвзятости, всеобъемлющую и разнообразную по своему характеру.

2) Создавайте ИИ, помня о предвзятости, и комплексно внедряйте системы, которые предотвращают ее возникновение.

3) Человеческий контакт необходим для контроля качества, чтобы определить, возникают ли какие-либо предубеждения при введении новых данных в ИИ.

Например, Knockri курирует видеозаявки на работу, анализируя вербальное и невербальное общение соискателя. Мы создали собственный собственный набор данных, в котором особое внимание уделяется инклюзивности и разнообразию. Кроме того, при количественной оценке компетенций кандидата алгоритм не учитывает этническую принадлежность, пол, внешний вид или сексуальные предпочтения человека как критерии желательности найма.

Искусственный интеллект хорош настолько, насколько хороши его наборы данных.При разумном построении искусственный интеллект может предоставить предприятиям масштабируемый ресурс, который может постоянно помогать людям принимать более объективные решения.