Раса и политика в эпоху GPT и NLP

Введение

В нашей предыдущей статье мы обсуждали недавний выпуск OpenAI GPT-3 и его возможные последствия в эпоху дезинформации. Мы обсудили эволюцию, архитектуру и историю серии GPT, а также оценили некоторые возможности и результаты, представленные в оригинальной публикации.

Однако, поскольку это были образцы литературы, отобранные исследовательской группой, они не обладают контекстом, необходимым для того, чтобы сделать их актуальными для актуальных тем сегодняшнего дня. Хотя GPT-3 еще не выпущен для широкой публики, GPT-2, названный его авторами «слишком опасным для выпуска», доступен с начала 2019 года. Следовательно, он служит отличной оценкой возможностей такие модели для постановки нашей задачи.

Мы рассмотрели трансформаторную архитектуру моделей серии GPT в нашей предыдущей статье. Самое главное, что модель была выпущена в 4 различных предустановленных весовых конфигурациях от 117 миллионов до 1,5 миллиардов параметров. Как можно догадаться, возрастающая сложность модели сопровождается увеличением производительности в различных задачах НЛП.

GPT-2 был обучен на наборе данных WebText, который состоит из текстового содержимого 45 миллионов исходящих ссылок, размещенных пользователями на платформе Reddit. Топ-15 доменов по объему в WebText: Google, Archive, Blogspot, GitHub, NYTimes, Wordpress, Washington Post, Wikia, BBC, The Guardian, eBay, Pastebin, CNN, Yahoo !, и Huffington Post.

Как модель будет работать при генерировании понятного для человека контента в последних заголовках сегодня? Насколько модель работает в весовой конфигурации? Можем ли мы подтвердить опасения, высказанные критиками моделей на основе трансформаторов?

Давайте посмотрим, как GPT-2 генерирует факсимильные сообщения некоторых актуальных тем в СМИ.

Реализация

Из-за сложности обучения модели GPT-2 с нуля мы будем адаптировать реализацию игровой площадки Лопеса-Франко библиотеки GPT, чтобы проверять выходные различия с помощью условной генерации выборки. Вы найдете адаптированный код на GradientCrescent Github.

В частности, мы будем сравнивать две разные конфигурации GPT-2, с маленькой моделью (117 миллионов параметров) и большой моделью (775 миллионов параметров, проверяя часть их результатов была получена по некоторым актуальным современным темам. Обратите внимание, что GPT-2 имеет общедоступную очень большую модель (с колоссальными 1,5 миллиардами параметров), но мы выбрал исключить его из рассмотрения из-за его размера.

Записная книжка сильно абстрагирована, а ключевой метод генерации условного образца находится в interactive_conditional_samples.py:

!python3 src/interactive_conditional_samples.py — model_name=’117M’ — nsamples=2 — top_k=40 — temperature=.80
  • model_name = '117M': Выбор модели. Выбирайте между моделями 117M, 345M, 774M и 1558M. .
  • seed = None: генератор случайных значений, используемый для получения тех же результатов в будущем.
  • nsamples = 1: указывает количество выходных отсчетов.
  • length = None: количество токенов (слов) для печати за образец.
  • batch_size= 1: сколько входов вы хотите обрабатывать одновременно.
  • temperature = 1: float между 0 и 1. Добавляет масштабирование выходных логитов перед выборкой до уровня softmax. более высокая температура приводит к большему количеству случайных завершений.
  • top_k = 0: Целочисленное значение, управляющее разнообразием. Усекает набор считающихся логитов до тех, которые имеют наивысшие значения. 1 означает, что для каждого шага (токена) учитывается только 1 слово, что приводит к детерминированным завершениям. 40 означает, что на каждом этапе рассматривается 40 слов. 0 (по умолчанию) - это специальная настройка, означающая отсутствие ограничений.

Этот сценарий, написанный на Tensorflow Core, принимает тексты, вводимые пользователем, кодирует их в токенизированное представление и передает их в модель для создания сгенерированных выходных данных с указанными ограничениями.

with tf.Session(graph=tf.Graph()) as sess:
 context = tf.placeholder(tf.int32, [batch_size, None])
 np.random.seed(seed)
 tf.set_random_seed(seed)
 output = sample.sample_sequence(
   hparams=hparams, length=length,
   context=context,
   batch_size=batch_size,
   temperature=temperature, top_k=top_k, top_p=top_p
  )
saver = tf.train.Saver()
 ckpt = tf.train.latest_checkpoint(os.path.join(models_dir, model_name))
 saver.restore(sess, ckpt)
while True:
 raw_text = input(“Model prompt >>> “)
 while not raw_text:
   print(‘Prompt should not be empty!’)
   raw_text = input(“Model prompt >>> “)
 context_tokens = enc.encode(raw_text)
 generated = 0
 for _ in range(nsamples // batch_size):
   out = sess.run(output, feed_dict={
   context: [context_tokens for _ in range(batch_size)]
   })[:, len(context_tokens):]
   for i in range(batch_size):
     generated += 1
     text = enc.decode(out[i])
     print(“=” * 40 + “ SAMPLE “ + str(generated) + “ “ + “=” * 40)
     print(text)
 print(“=” * 80)

Поскольку модель была обучена более года назад, более свежие темы, такие как недавняя вспышка COVID-19, не представлены в наборе данных. Систематические перекрестные ссылки были выполнены на всех сгенерированных образцах, и был сделан вывод, что ни одно из этих предложений не было дословно скопировано из конкретной статьи. Содержание всех образцов синтезируется, а не запоминается.

Давайте рассмотрим некоторые темы.

О президенте Трампе

775M

117M

Хотя в обоих примерах общий поток и грамматика кажутся естественными с первого взгляда, обе модели демонстрируют несоответствия, причем эти проблемы значительно более очевидны в меньшей модели.

Трамп сказал, что «антиамериканские» СМИ пытаются отвлечься от того, что он назвал «величайшей проблемой в нашей истории», а именно от «антиамериканских» СМИ в Соединенных Штатах и ​​Великобритании.

«Эти СМИ, СМИ Израиля, СМИ Саудовской Аравии и многих других стран пытаются всех нас посадить в тюрьму, я имею в виду, это позор. Я имею в виду, что мы в тюрьме, - сказал Трамп.

  • Маловероятно, что все СМИ традиционных ближневосточных союзников Америки пытаются «посадить их в тюрьму». К сожалению, из-за склонности президента повторяться, становится значительно труднее отделить правду от вымысла. Однако большое количество повторов вызывает подозрения.

Текст для более крупной модели гораздо более последовательный, за исключением фразы:

Трамп сказал, что Северной Корее нужно дать до 2022 года стать «ядерной державой».

  • Это противоречило бы внешней политике Соединенных Штатов в отношении Северной Кореи. Хотя это предложение действительно имеет смысл, оно не отражает скрытых отношений между Северной Кореей и мировым восприятием ее ядерной программы.

О президенте Обаме

775M

117M

В то время как выходные данные более крупной модели кажутся приемлемыми для человеческих результатов (за исключением обвинений в том, что люди были убиты IRS), выходные данные меньшей модели, хотя грамматически правильные, демонстрируют несколько тематических несоответствий:

, который провел кампанию в рамках предвыборного обещания «отменить и заменить» Obamacare, сказал, что республиканский налоговый план нанесет ущерб американцам, сократив налоги на 10 процентов.

  • Снижение налогов обычно не причиняет вреда американцам.

Согласно исследованию Kaiser Family Foundation, закон затронет 1,4 миллиона человек, проживающих в США, по сравнению с 2,2 миллионами в предыдущем году.

  • Количество людей, затронутых этим планом, уменьшилось, а не увеличилось, поэтому термин вверх с неверен.

Республиканцы также заявили, что план сократит федеральный дефицит на 130 миллиардов долларов к 2030 году.

  • Снижение налогов вряд ли уменьшит федеральный дефицит.

Но Белый дом заявил, что законопроект не меняет основную налоговую структуру плана и что он снизит только процентные ставки и налоги на прибыль для тех, кто зарабатывает более 250 000 долларов в год.

  • Порог дохода для снижения налогов, приписываемого Белому дому, определенно будет трудно реализовать в качестве приемлемого налогового плана.

О жестокости полиции

775M

117M

Различия между двумя конфигурациями здесь значительно более очевидны, поскольку результаты меньшей модели почти бессмысленны.

который привел к повсеместному жестокому обращению со стороны полиции в последние годы, привел к аресту более 700 человек при снятии оружия у полицейских.

  • Маловероятно, что жестокость полиции отняла у полицейского «оружие». Возможно, модель усвоила концепцию убрать у кого-то оружие и допустила здесь грамматическую ошибку.

Комиссар полиции Билл Браттон ранее заявлял, что он обеспокоен тем, что люди уходят из полиции из-за недавней волны стрельбы. Он добавил, что его беспокоит вероятность того, что они будут застрелены полицией в будущем, и что он хотел бы, чтобы те, кто не служил в полиции, обстреливали, чтобы те, кто не служит, остались в силе. .

  • Заявление комиссара полиции Браттона здесь совершенно бессмысленно. Как полиция может желать видеть людей, уже убитых в результате перестрелки, или беспокоиться о том, что бывшие офицеры будут застрелены полицией в будущем?

Но когда дело, наконец, было передано большому жюри, большим присяжным еще предстояло решить, предъявлять ли этому человеку обвинение, и теперь полиция Нью-Йорка расследует дело.

Департамент полиции Нью-Йорка неоднократно заявлял, что никогда не видел, чтобы подобным образом совершались «преступления, связанные с наркотиками или насильственные преступления».

  • Вполне вероятно, что полиция Нью-Йорка расследовала это дело до того, как оно было передано большому жюри. Кроме того, способ совершения преступления не уточняется.

О жизни черных имеет значение

775M

117M

Результат более крупной модели приемлем для человека, если не считать неоднократных упоминаний организаторов митинга. Напротив, меньшая модель показывает несоответствия.

Полицию обвинили в жестокости при убийстве Родни Кинга в августе, и последние годы Кинг был черным по белому по всей стране. Но это не редкость - и обычное явление в сегодняшнем мире - чтобы у полицейского был партнер, который прибегал к насилию, жестокому обращению или иным образом подвергался жестокому обращению, и средства массовой информации часто не желают сообщать об этих случаях.

  • Трагический случай убийства Родни Кинга - отличный пример полицейской жестокости, но фраза «был черным по белому» не имеет грамматического смысла. Более того, в последнем абзаце представлены два, казалось бы, не связанных между собой случая, которые не добавляют аргументации и кажутся неуместными.

О систематическом расизме

775M

117M

Обе модели здесь демонстрируют некоторые несоответствия. В более крупной модели комментарии Томаса повторяются и противоречат друг другу.

Томас был сторонником движения Black Lives Matter и считает, что полиция слишком часто становится объектом насильственных и расистских высказываний.

«Они чувствуют, что полиция работает слишком долго, и они не делают достаточно, чтобы обеспечить соблюдение закона».

  • Маловероятно, чтобы полиция считала, что они медленно реагируют и делают недостаточно. Было бы более разумно, если бы меньшинства были указаны как объекты расизма, вместо этого, что не было правильно сделано.

Меньшая модель демонстрирует значительно больше несоответствий с плохой пунктуацией во всем.

В своей недавней книге «Кто мы» покойный Майкл Б. Уильямс утверждает, что «расовый раскол» в США - это не проблема «расы». Это не проблема класса или расы ». Другими словами, как Уильямс написал в своей« Расе и гендере »,« США - это расовая система.

  • Хотя общую суть аргумента автора можно вывести, повторение расы излишне. Более того, не имеет смысла объявлять США «расовой системой» после утверждения, что расовое разделение не связано с концепцией расы.

Выводы

Понятно, что с увеличением сложности модели GPT-2 мы наблюдаем повышенную способность создавать созданный людьми контент, охватывающий основные темы, наблюдаемые сегодня в СМИ.

Напротив, самая большая из представленных моделей GPT-3 имеет более 175 миллиардов параметров с производительностью, соответствующей ее сложности. Последствия распространения таких моделей, особенно в сочетании с точной настройкой данных определенного настроения или оттенка, породят модели, способные генерировать контент не только по определенной теме, но и по определенному аргументу . Это может иметь потенциально разрушительные последствия, поскольку дает возможность изменять контекст в дискурсе, предоставляя реалистичные источники желаемых аргументов.

К счастью, сложность и ресурсоемкий характер этих моделей пока ограничивают их использование только очень хорошо обеспеченными ресурсами организациями, такими как субъекты государственного уровня. В конечном счете, решение опасностей «фейковых новостей» заключается не в простой попытке ограничить распространение языковых моделей, а в улучшении наших навыков в области информационной грамотности и критического мышления как общества.

На этом мы завершаем обзор моделей трансформаторного типа. В следующий раз мы вернемся к обучению с подкреплением и перейдем к внедрению ценностного обучения в Pytorch, чтобы еще больше улучшить производительность нашего Агента в Doom.

Мы надеемся, что вам понравилась эта статья, и надеемся, что вы ознакомились со многими другими статьями о GradientCrescent, охватывающими прикладные и теоретические аспекты ИИ. Чтобы быть в курсе последних обновлений на GradientCrescent, просим следить за публикацией и нашим репозиторием Github.

использованная литература