GlossBERT: BERT для устранения неоднозначности слов с помощью функции глянца

В языках очень часто встречаются ситуации, когда одно и то же слово будет иметь совершенно разные значения в зависимости от контекста, в котором они встречаются. Рассмотрим следующие предложения -

S1: «Я пошел на берег реки набрать воды»

S2: «Я пошел в банк², чтобы получить возмещение»

Понятно, что слово bank¹ в предложении S1 относится к наклонной земле возле водоема, а слово bank² в S2 относится к финансовому учреждению. Это пример лексической неоднозначности, возникающей в лингвистике из-за различного толкования значений слова. Хотя эта задача устранения неоднозначности многозначного слова кажется довольно очевидной для людей, оказывается, что это не так для машин и алгоритмов. В НЛП мы формально называем это проблемой устранения неоднозначности слов (WSD), и оказывается, что это очень сложная проблема ИИ [2]. Фактически, сообщество искусственного интеллекта называет это проблемой AI-Complete [2], аналогично NP-полноте! Хотя многие методы машинного обучения для НЛП достигают ›90% по многим основным задачам, таким как тегирование частей речи, распознавание именованных сущностей и сопоставление / превышение возможностей человека, текущее состояние- уровень мастерства WSD составляет около 75%, что намного меньше, чем у человека. В этой статье мы рассмотрим недавнюю статью, опубликованную на EMNLP 2019, которая настраивает предварительно обученную модель BERT с определениями глянца в WordNet, чтобы значительно улучшить производительность WSD.

Задний план

WordNet [4]: Wordnet - это лексическая база знаний, содержащая синонимы и отношения между ними, такие как синонимия, гипернимия и т. д. Каждый из наборов синонимов содержит глосс - краткое определение того, чему соответствует каждый набор синхросигналов.

Краткая справка о предыдущих работах над WSD [3]: традиционно существует два варианта в области WSD - лексический / целевой WSD, где мы ограничиваем устранение неоднозначности конкретным набор целевых слов и All-Words WSD, где нет такого ограничения. Большинство предыдущих работ рассматривают WSD как проблему классификации нескольких классов / нескольких ярлыков, в которой ярлыки соответствуют возможным смыслам, которые может принимать слово.

Что касается функций задачи WSD, предложенные методы можно разделить на три структуры:

Контролируемое и полууправляемое устранение неоднозначности: эти методы обычно получают характеристики слов, которые должны быть устранены, используя информацию контекста и другие локальные особенности. После получения функций любая контролируемая / частично контролируемая структура машинного обучения может использоваться для обучения и прогнозирования чувств. В последнее время появилась тенденция использовать нейронные модели для WSD, рассматривая их как задачи маркировки последовательностей.
Устранение неоднозначности на основе знаний. Эти методы используют и используют источники знаний, такие как WordNet, PPDB, словари для устранения неоднозначности. Хотя эти методы обычно дают более низкую точность, чем вышеупомянутая структура, оказывается, что они обеспечивают более широкий охват.
Гибридные подходы. Недавние методы на основе нейронных сетей, такие как ELMo, BERT, показали, что они создают хорошие контекстные вложения, которые могут действовать как качественные характеристики для контролируемой классификации. Благодаря этому усовершенствованию несколько недавних методов показали, что объединение их с информацией из источников знаний улучшает производительность WSD. GlossBERT - одна из таких моделей, которая использует контекстуальные вложения со знаниями из глянцевой информации, чтобы делать более точные прогнозы.

BERT (представления двунаправленного кодера от трансформаторов) [5]: BERT - это недавняя модель на основе нейронной сети, которая двунаправленно обучается преобразователям определять контекстные отношения между словами в предложениях. BERT изучает контекстную информацию слов, используя две методики обучения:

Маскированная языковая модель (MLM) с целью прогнозирования токена [MASK]
Предсказание следующего предложения (NSP), с целью предсказать, произойдут ли последовательно два заданных предложения. В некотором смысле это можно рассматривать как классификацию предложений, к которой мы еще вернемся.

Я не буду вдаваться в понимание основ BERT в этом посте, поскольку цель - познакомить с GlossBERT. Статья BERT дает очень хорошее объяснение того, как работает BERT, на случай, если читатель не знает.

GlossBERT [1]: интуиция

В отличие от традиционных статей, которые непосредственно знакомят с методом, здесь я пытаюсь мотивировать некоторые интуиции, прежде чем перейти к модели, предложенной авторами. Здесь мы пытаемся поставить себя на место авторов, чтобы увидеть, что побудило авторов придумать такой метод. Мотивация для архитектуры GlossBERT исходит из интуиции и наблюдений:

Наблюдение 1: Эмпирически показано, что BERT обеспечивает очень хорошее контекстное представление слов в предложениях. Поскольку устранение неоднозначности значения слова во многом зависит от окружающего его контекста, BERT дает преимущество в WSD благодаря способности улавливать контекст.

Наблюдение 2: многие традиционные методы, предложенные в начале 2000-х годов, показывают, что использование более простых методов WordNet и Gloss, основанных на информации, обеспечивает лучший охват и приемлемую производительность в WSD.

Наблюдение 3: Одна из задач BERT - это NSP, которую можно рассматривать как проблему классификации предложений, цель которой - предсказать, релевантны ли два предложения и произойдут ли они следующими. друг другу. Следовательно, BERT достаточно хорошо обучен задаче классификации предложений.

При следующих наблюдениях довольно интуитивно понятно моделировать WSD как проблему классификации предложений с парой предложений, состоящей из целевого предложения (предложения, содержащего слово, которое необходимо устранить) и определения смысла слова (взято из wordnet). Метка будет 1 (истина), если определение блеска принадлежит основному аннотированному смыслу слова, 0 в противном случае. Имея в виду эту интуицию, мы подробно рассмотрим GlossBERT.

Объяснение GlossBERT

Сначала авторы создают пары контекст-глянец всех целевых предложений, чтобы устранить неоднозначность. Этот шаг включает рассмотрение всех возможных значений слова для устранения неоднозначности. Например, давайте рассмотрим целевое предложение со словом «исследование», чтобы устранить неоднозначность. Поскольку существует четыре возможных значения слова «исследование», мы создаем 4 пары контекст-глянец, каждая из которых состоит из конкатенации целевого предложения и определений глоссария. Ярлыки: «True», если определение блеска соответствует основному смыслу, «False» в противном случае.

Авторы дополнительно рассмотрели создание пар контекст-глосс при слабом контроле, что означает, что они добавили дополнительные «сигналы» для модели, чтобы идентифицировать целевое слово в случае, если оно встречается в целевом предложении более одного раза. Авторы использовали "" "вокруг целевого слова, чтобы усилить этот слабый контроль.

При такой настройке проблема WSD просто сводится к настройке классификации предложений. Предварительно обученная модель BERT настроена с дополнительным полностью связанным слоем для этой настройки двоичной классификации. Есть три варианта выбора функций, которые будут использоваться для классификации FCNet. Каждый из этих вариантов приводит к трем различным моделям.

GlossBERT (Token-CLS): этот метод использует пары контекст-глянец и использует окончательное скрытое контекстуализированное встраивание BERT, соответствующее целевому токену, чтобы сделать прогноз. В случае нескольких целевых слов / токенов в целевом предложении вложения усредняются перед подачей на полностью подключенный уровень.
GlossBERT (Sent-CLS): этот метод принимает последние скрытые вложения, соответствующие токену [CLS], и делает прогноз. Мотивация здесь заключается в том, что встраивание токенов [CLS] дает представление всей пары context-gloss.
GlossBERT (Sent-CLS-WS): этот метод очень похож на предыдущий, за исключением того, что входными данными для BERT будут пары контекст-глянец со слабым контролем. Встраивание токена [CLS] на последнем уровне используется для прогнозирования.

Наблюдения

Можно обнаружить, что метод, рассмотренный авторами, очень интуитивно понятен, и это подтверждается хорошей эмпирической эффективностью. Оказывается, пары контекст-глянец со слабым контролем действительно улучшают производительность модели, а модель Sent-CLS-WS дает лучшую производительность. Метод Token-CLS стабильно работает лучше, чем его другая альтернатива. Оказывается, этот метод лучше, чем те, которые используют контекстуализированные вложения ELMo [6]. Авторы сообщают о современной производительности в нескольких задачах WSD. Подробные результаты можно увидеть в GlossBERT paper.

Открытые вопросы и направления исследований:

Вот несколько вопросов, на которые, на мой взгляд, было бы интересно взглянуть:

Вместо того, чтобы рассматривать все отрицательные образцы для обучения, можем ли мы увидеть, что произойдет, если вместо этого преобразовать проблему в сбалансированную классификацию? Потенциальная проблема с GlossBERT - это создание 2 миллионов пар контекст-глянец от Semcor, и обучение стоит довольно дорого (авторы сообщают, что обучение с 8 графическими процессорами занимает 24 часа, что дорого).
Каков эффект точной настройки BERT? В чем разница в производительности, если мы напрямую используем предварительно обученные контекстуализированные вложения BERT? Это может сэкономить массу накладных расходов.
В более ранней литературе было показано, что с учетом семантических отношений между смыслами, таких как синонимия, гипернимия помогает преодолеть проблему «разреженности ярлыков» в WSD. GlossBERT не учитывает семантические отношения между чувствами. Что, если мы сможем включить это в существующий метод?

Сопутствующие работы

1. Сжатие смыслового словаря посредством семантического знания WordNet для устранения неоднозначности нейронного словарного запаса [10]

Одним из основных недостатков контролируемого подхода к WSD является проблема разреженности меток. SemCor в настоящее время является крупнейшим доступным набором данных с ручным распознаванием и аннотациями, и оказывается, что он охватывает только 16% чувств WordNet. Вполне возможно, что целевое слово / смысл при тестировании никогда не появляется в обучающих корпусах, и это одна из причин плохого охвата систем WSD, использующих контролируемые методы. Чтобы решить эту проблему, авторы предлагают структуру «сжатия смыслового словаря». Это основано на интуиции, что не все мелкие детали чувств необходимы для устранения неоднозначности многозначных слов.

Авторы предлагают два метода сжатия: (i) от сенсорных ключей до synset, (ii) от сенсорных ключей до группировки synset на основе гипернимых отношений. Во втором методе каждый набор синонимов сопоставляется с наименьшим общим предком в гипернимом графе с определенными ограничениями. Эти методы сжатия, кажется, значительно улучшают охват SemCor и сокращают смысловой словарный запас. Авторы использовали предварительно обученные вложения BERT для оценки и показали, что методы сжатия смысла значительно улучшили производительность WSD, уменьшив количество параметров, необходимых для обучения, в 2 раза.

2. Полуконтролируемое устранение неоднозначности смысла слов с помощью нейронных моделей [9]

В этом документе COLING 2016 предлагается модель долгосрочной краткосрочной памяти (LSTM) в сочетании с распространением меток для полууправляемого WSD. Эта работа также мотивирована аналогичной проблемой отсутствия маркированных данных для полностью контролируемого обучения. Модели на основе нейронных сетей, основанные на моделях последовательностей, таких как LSTM, обычно требуют больших данных для лучшей обобщаемости. В этой работе авторы сначала обучают двунаправленный LSTM для языкового моделирования. Для устранения неоднозначности многозначные слова берут скрытые вложения и используют граф распространения меток для устранения неоднозначности. Граф распространения меток строится путем рассмотрения как аннотированных, так и неаннотированных экземпляров как вершин и взвешенных ребер, распределенных на основе косинусного сходства контекстуализированных вложений из LSTM. С помощью этого графа мы можем использовать алгоритм распространения меток для классификации вершин с отсутствующими метками. Авторы показывают, что метод полууправляемого распространения меток работает лучше, чем метод ближайшего соседа. Важно понимать, что LSTM не обучается непосредственно на этикетках, а просто обучается языковому моделированию и, таким образом, обеспечивает хорошие контекстные вложения для слов. Прогнозирование меток WSD происходит из алгоритма распространения меток.

3. Модели обучения нейронной последовательности для устранения неоднозначности слов [8]

Этот документ EMNLP 2017 представляет серию нейронных моделей, специально предназначенных для WSD, и предоставляет единую структуру оценки, которой в настоящее время придерживаются все последние работы по WSD. Это одна из первых работ по преобразованию предыдущей концепции рассмотрения WSD как отдельной проблемы классификации в парадигму маркировки последовательностей. В статье показано, что методы нейронного секвенирования являются эффективными методами WSD. В частности, авторы оценивают две модели - двунаправленную LSTM, обученную на помеченных данных (в отличие от предыдущей работы, о которой мы говорили), и модель внимательного кодировщика-декодера. Кроме того, авторы показывают, что многозадачное обучение с использованием тегов POS и крупнозернистой семантической маркировки улучшает производительность WSD. Главный вывод из этой работы заключается в том, что новая перспектива WSD как задачи маркировки последовательностей является более масштабируемой и универсальной, чем предыдущая перспектива классификации на уровне слов (также называемая моделью «слово-эксперт»). .

4. Включение глоссы в нейронное устранение смысловой неоднозначности [7]

Эта статья EMNLP 2018 - одна из первых работ, в которых предлагается интегрировать глянцевую информацию в нейронные модели для WSD. Многие более ранние работы показали, что глянцевая информация из WordNet предоставляет очень хорошие функции для WSD наряду с контекстной информацией. Исходя из этой мотивации, авторы интегрируют информацию из глянца с моделями последовательностей. Сначала авторы рассматривают целевое предложение и глосс, соответствующие смыслу слова. Они обогащают исходную глянцевую информацию соответствующими глянцевыми семантическими связями, такими как гипернимия и гипонимия.

Чтобы интегрировать контекстное представление с информацией о глянце, авторы предлагают метод с 4 модулями: (i) Контекстный модуль, который изучает представление целевого предложения с помощью двунаправленного LSTM, (ii) Модуль Gloss, который кодирует всю информацию о глянце в фиксированный - размерное векторное представление, (iii) модуль памяти, моделирующий отношения между входными данными с использованием механизма внимания, (iv) модуль подсчета очков, который изучает распределение вероятностей по органам чувств. Предложенный метод достиг значительных улучшений производительности по сравнению с LSTM с методом полууправляемого обучения.

5. Устранение смысловой неоднозначности: обзор [3]

Это один из классических основополагающих обзоров традиционных методов WSD, написанных Navigli в 2009 году, и в настоящее время он имеет более 2000 цитирований. В статье дается обзор проблемы WSD и классификация предыдущих попыток решения этой задачи. В статье математически формулируется задача и объясняется широкий спектр основанных на знаниях подходов для WSD - перекрытие глянца на основе Леска, методы PageRank для WSD, использование лексических цепочек для эффективного устранения неоднозначности, методы на основе доминирования, устранение неоднозначности на основе предметной области и так далее.

Работа дает интересные идеи об использовании функций ручной работы для контролируемого WSD, таких как (i) локальные особенности, которые представляют локальный контекст слов, таких как POS, словоформы, (ii) тропические особенности, представляющие тему текста / предложения, ( iii) синтаксические и семантические особенности. Хотя модели на основе нейронных сетей изучают эти контекстные представления напрямую, без какой-либо ручной работы, все же актуально понимать традиционные методы, поскольку последние модели можно легко интегрировать с традиционными подходами для повышения производительности.

Фактически показано, что многие из традиционных подходов интеграции на основе глянца и устранения неоднозначности на основе графов значительно улучшают производительность моделей на основе нейронных сетей для WSD, GlossBERT является одним из таких примеров.

использованная литература

[1] Хуан Л., Сунь Ц., Цю X, Хуан Х. GlossBERT: BERT для устранения неоднозначности смысла слов с помощью знания глянца. ЕМНЛП 2019

[2] МЭЛЛЕРИ, Дж. С. 1988. Размышления о внешней политике: поиск подходящей роли для компьютеров с искусственным интеллектом. Кандидат наук. диссертация. Департамент политологии Массачусетского технологического института, Кембридж, Массачусетс

[3] Роберто Навильи. 2009. Значение смысла: Обследование. Опросы ACM computing (CSUR), 41 (2): 10

[4] Джордж Миллер. 1995. Wordnet: лексическая база данных для английского языка. Сообщения ACM, 38 (11): 39–41.

[5] Джейкоб Девлин, Мин-Вэй Чанг, Кентон Ли и Кристина Тутанова. 2018. Берт: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка.

[6] Мэтью Питерс, Марк Нойман, Мохит Айер, Мэтт Гарднер, Кристофер Кларк, Кентон Ли и Люк Зеттлмойер. 2018. Глубокие контекстные представления слов. В материалах конференции 2018 г. Североамериканского отделения Ассоциации компьютерной лингвистики: технологии человеческого языка, том 1 (Длинные статьи), страницы 2227–2237.

[7] Ло Ф, Лю Т., Ся Кью, Чанг Б., Суй З. Включение глоссы в нейронное устранение смысловой неоднозначности слова EMNLP 2018

[8] Раганато А., Бови С.Д., Навильи Р. Модели обучения нейронной последовательности для устранения неоднозначности смысла слова. Материалы конференции 2017 г. по эмпирическим методам обработки естественного языка, сентябрь 2017 г. (стр. 1156–1167).

[9] Юань Д., Ричардсон Дж., Доэрти Р., Эванс К., Альтендорф Э. Полуконтролируемое устранение неоднозначности смысла слова с помощью нейронных моделей.

[10] Vial L, Lecouteux B, Schwab D. Сжатие смыслового словарного запаса посредством семантического знания WordNet для нейронного устранения неоднозначности смысла слова.