Понимание насущных проблем и текущих усилий по снижению предвзятости и справедливости в исследованиях НЛП

За последние три года после внедрения Transformer произошло множество прорывов в области обработки естественного языка (NLP). Кроме того, растет осведомленность, дискуссии и дебаты о вреде, причиненном как побочный продукт достижений в исследованиях НЛП и технологиях искусственного интеллекта. Прошлый год в области этики НЛП закончился скандальным увольнением, а новый год начался с публикации самой ожидаемой статьи Стохастические попугаи на facct 2021 от Тимнит Гебру и др. Я ценю усилия авторов вызвать тревогу.

Статья наводит на размышления. Я прочитал много положительных и отрицательных дискуссий по этой статье [1, 2, 3, 4]. Сообщение Что в спорной статье хорошо резюмирует статью, не занимая никакой позиции. Публикационная предвзятость [5] относится к тенденции публиковать только положительные и значимые результаты. Я считаю, что эта статья - пример преодоления предвзятости публикации. Это вызвало дискуссию среди ученых и корпораций о вреде технологий и их влиянии на общество [6]. Я изучаю этику ИИ, предвзятость и справедливость в обработке естественного языка и ответственные исследования ИИ в течение последних нескольких месяцев. Эта статья ставит целью представить некоторые насущные вопросы, обсуждаемые в этой статье. Обобщите текущие исследования по устранению или выявлению проблем с большими языковыми моделями.

Гебру и др. Обсуждают влияние больших языковых моделей (LLM) на окружающую среду, финансовые затраты, риски, связанные с большими данными обучения, полученными из общедоступного бесплатного текста из Интернета, вред, причиненный маргинальным сообществам, и проблемы с направлением исследований в поле. В этом документе также представлены некоторые рекомендации по устранению проблем. Обсуждаемый вред справедлив для всех размеров LM. LLM показывают вершину того, чего могут достичь люди в технологическом развитии. Со времени разработки LLM - впечатляющего инженерного подвига, достигнутого с точки зрения разработки приложений, - некоторые известные приложения - это DALL-E и Clip. Как исследователь, меня всегда трогают научные открытия. Мы пытаемся преодолеть предел, который ведет к разработке инновационных приложений. Тем не менее, проблемы, поднятые в этой статье, предназначены для отражения итогов, то есть, прежде чем мы создадим LLM, можем ли мы провести дополнительные исследования, чтобы понять и способы смягчения вреда и проблем, связанных с доступными в настоящее время LM?

Некоторые личные мысли

Экологические и финансовые затраты

Обучение моделей LM может привести к значительным финансовым и экологическим издержкам. Забота об окружающей среде актуальна в отношении многих новых технологий. Автор упоминает: Обучение одной базовой модели BERT (без настройки гиперпараметров) на графических процессорах, по оценкам, потребует столько же энергии, как и трансамериканский полет. Возможно, приведенное автором сравнение стоимости окружающей среды вызывает сомнения. Однако настоящий вопрос, который следует задать: что мы делаем для решения экологических проблем этих новых технологий?

В мире существует экономическое и технологическое неравенство. Обучение LLM требует значительных финансовых затрат. Кто обучает эти модели LLM? Кто получит наибольшую выгоду от приложений?

Данные обучения, используемые в больших языковых моделях (LLM)

После прочтения этой статьи я обнаружил, что главной и тревожной проблемой является то, как современные LLM кодируют гегемонистский текст. Текст, используемый для обучения GPT-2, был собран путем сканирования исходящих ссылок Reddit, и все знают, что Reddit в значительной степени представлен мужчинами, принадлежащими к определенному возрасту, классу и расовой демографии. Какие идеологии будут отражены, когда мы будем разрабатывать приложения с предвзятыми данными обучения через Интернет? Недавние исследования показали стойкие стереотипы, гендерные и антимусульманские предубеждения в магистратуре права. Нам нужно больше беспокоиться об использовании основного текста в качестве обучающих данных, которые не полностью репрезентативны для мира. Какова демография пользовательского текста в Интернете? Это подводит нас к следующему вопросу. Должны ли модели ИИ кодировать мир таким, какой он есть, или он должен быть лучше? Кто будет решать?

Еще одна серьезная проблема использования общедоступных данных - это соображения конфиденциальности, поскольку набор данных может содержать личные данные [7]. Исследователи показали, что можно извлечь обучающие данные из LLM [8]. Конфиденциальность данных была самой острой проблемой с момента появления цифрового маркетинга [9]. Как мы собираемся решать проблемы конфиденциальности ИИ? Сколько усилий предпринимается в настоящее время для количественной оценки и решения проблем конфиденциальности по сравнению с разработкой новых технологий?

Статические снимки LLM

Еще один важный вопрос заключается в том, что LLM являются статическим моментальным снимком времени, потому что вероятность повторного обучения LLM меньше из-за более высокой стоимости. Как описано в статье, LLM - это стохастические попугаи. В последние годы была проделана значительная работа над Black Lives Matter, движением Me too и ответственным AI и этикой AI, что не будет отражено в этих LLM. Авторы обсуждают, кто выиграет, а кто пострадает от продвижения, потому что использование технологий еще не достигло значительной части общества. Вы думаете, что БЕРТ знает о COVID-19? Как статический снимок отобразит динамический мир?

Как мы калибруем LLM?

Главный вопрос «могут ли языковые модели быть слишком большими?» Это заставило меня задуматься о способности моего ребенка понимать язык. У него ограниченный словарный запас, так как он все еще изучает язык. Для 6-летнего ребенка многие вещи не имеют смысла, потому что интеграция мозга находится в стадии развития. Иногда он использует слова не в том месте, и эти ошибки постепенно помогают ему исправить их в следующий раз. Я подумал о мысленном эксперименте. Если ребенку 5–6 лет показаны все данные из видео из Википедии, Reddit, YouTube и Facebook. Что будет в результате? На мой взгляд, это будет более широкая языковая модель. Он выучил слово на букву «F» из детского телешоу на днях. Он использовал это, и я должен сказать ему, что это означает на детском языке и почему бы не использовать это. Однако использование взрослыми считается нормальным. Что хорошо, а что плохо, очень субъективно. Но взросление - это процесс обучения, наблюдения, взаимодействия и совершения ошибок, который в конечном итоге калибрует нашу систему во взрослом возрасте.

Обучаем ли мы эти разноразмерные языковые модели с пониманием ошибок и неправильностей, на которые эти модели способны? Как мы собираемся откалибровать эти системы LLM и AI? Однако практический опыт (построение технологий с использованием LM) может помочь выявить скрытый вред, ошибки и исправления помогут нам разработать более совершенные и справедливые технологии. Можем ли мы сделать это с имеющейся LM?

Предвзятость и справедливость недавних исследований в магистратуре права

В прошлом году исследователи из OpenAI, Стэнфордского института искусственного интеллекта, ориентированного на человека, и других университетов встретились, чтобы обсудить открытые исследовательские вопросы, касающиеся Generative Pre-Training Transformer 3 (GPT-3), который является крупнейшей языковой моделью [10]. Развитие LLM сыграло важную роль в стимулировании усилий, чтобы задать вопрос как создать более этичные языковые модели? Необходимы исследовательские усилия в направлении разработки управляемой генерации текста для LM, как оценивать алгоритмы, как оценивать предвзятость, как оценивать наборы данных, алгоритмический аудит и всеохватывающие команды при разработке этих алгоритмов. и тщательно взвешивая эти риски, продолжая исследования. Тревога, вызванная этой статьей, привлекла внимание к исследованию вреда LLM. В недавней статье Креолизация Интернета был предложен подход к пониманию реального набора данных из Reddit для определения сообществ и эхо-камер для мнений. Нам нужны подобные методы для оценки больших наборов данных, прежде чем мы сможем даже обучать более крупные модели. Самый многообещающий подход - калибровка систем ИИ с помощью фреймворков человека в цикле (HITL). Важно думать о направлении исследовательских усилий. Задавая вопросы. Сколько исследовательских усилий в настоящее время направлено на смягчение или снижение предвзятости и справедливости в технологиях по сравнению с разработкой новых технологий?

Таким образом, влияние новых технологий непредсказуемо, и мы не можем предвидеть, как они изменят мир. Мы должны рассматривать этот документ как шаг к тому, чтобы задавать вопросы и предлагать решения. Пришло время задать больше вопросов и найти ответы, чтобы создать справедливую технологию, которая создаст лучший мир. Давайте использовать все линзы и постараемся найти значимые направления на будущее.

Спасибо Сухас Пай за идеи, обсуждения и помощь в написании этой статьи.