Глубоко в сквозной модели нейронной привязки

В предыдущей статье о сквозной модели нейронного сопоставления мы видели результаты и их применение на чат-боте. Хотели бы вы глубже понять, как работает эта модель? Эта статья удовлетворит ваше любопытство.

Эта статья содержит формулы для более подробной информации, но я постарался сделать описание теоретической части в статьях более доступным. Medium не поддерживает надстрочный, подстрочный или латексный синтаксис, что вызывает некоторые неудобства при чтении этой статьи.

Прежде чем мы начнем узнавать больше об этой модели, несколько концепций кореферентности помогут нашему пониманию.

1. Исследования о разрешении кореферентности

Для кореферентности построены некоторые важные модели, такие как модель пары упоминаний и модель ранжирования упоминаний.

1.1 Модель пары упоминаний

Наблюдается модель пары упоминаний. В соответствии с набором данных кореференций помечены кореференции NPs (существительное словосочетание). Эта модель предлагает бинарный классификатор, чтобы предсказать, являются ли два NP кореферентными. Однако эта модель нецелесообразна по следующим причинам. Прежде всего, свойство транзитивности в отношении кореферентности не может быть гарантировано. Тогда для большинства NP не кореферентных меток количество не кореферентных меток намного больше, чем кореферентных меток. Таким образом, помеченный набор данных может иметь искаженное распределение классов. Для реализации модели необходимы функции, метод создания обучающего экземпляра и алгоритм кластеризации.

1.2 Модель рейтинга упоминаний

Учитывая НП, который необходимо разрешить, модель ранжирования упоминаний принимает во внимание наиболее вероятные антецеденты кандидатов. Для каждого упоминания рассчитывается балл попарного сопоставления этого упоминания и предшествующих кандидатов. Антецедент с наибольшим количеством баллов будет выбран, чтобы соответствовать этому упоминанию. Оценка попарного кореференции состоит из оценок упоминаний и оценок предшествующих оценок. Оценка упоминания подразумевает возможность того, что выражение является упоминанием. Точно так же антецедентная оценка указывает на то, что возможность предшествующего кандидата является реальным предшественником этого упоминания. Методы машинного обучения тренируют некоторые критерии из набора данных. Это позволяет нам обучать ранжировщика упоминаний, а не ранжировать всех предшествующих кандидатов. Модель рейтинга упоминаний превосходит модель пары упоминаний. Однако он не может использовать функции уровня кластера.

Другая улучшенная модель кластерного ранжирования была предложена Рахманом и Нг (2009). Вместо того, чтобы ранжировать только кандидатов-антецедентов, ранжируются предыдущие кластеры. Одно из значений по умолчанию модели ранжирования упоминаний состоит в том, что она ранжирует только антецедентов кандидатов, поэтому, если упоминание действительно появляется перед некоторыми антецедентами кандидатов, неанафорический NP будет разрешен по ошибке. И это не то, чего мы ожидали. Сама модель не может определить, является ли упоминание анафорическим. Предлагается несколько других решений для выявления неанафорических НП.

1.3 Современные модели разрешения Coreference

В статье (Clark and Manning, 2016a) предлагается основанная на нейронной сети модель на основе сущностей, которая создает многомерные векторные представления для пар кластеров кореферентности. Система обеспечивает окончательное разделение кореференции с высоким показателем за счет использования алгоритма обучения поиску, чтобы узнать, как объединить кластеры. Поскольку истинные наблюдения зависят от предыдущих действий, стандартное предположение i.i.d не может быть подтверждено в этом случае. Алгоритм обучения поиску может решить эту проблему, оптимизируя оценку политики. Конечный результат - средний балл F1 65,29%.

В статье Clark and Manning (2016b) модель рейтинга упоминаний оптимизирована двумя методами: обучением с подкреплением и целью максимальной маржи с измененным масштабом вознаграждения. Применяется та же модель рейтинга упоминаний, которая описана в статье Clark and Manning (2016a). Вместо алгоритма обучения поиску предлагается обучение с подкреплением в качестве алгоритма обучения для оптимизации модели непосредственно для метрик кореферентности. Наконец, модель, использующая цель максимальной маржи с измененным масштабом вознаграждения, превосходит алгоритм REINFORCE, а также предыдущую статью Кларка и Мэннинга, которая дает 65,73% в задаче на английском языке.

2. Модель сквозной нейронной привязки

Первая сквозная модель Coreference Resolution превосходит предыдущие современные модели, в которых используется ручное обнаружение упоминаний, синтаксические синтаксические анализаторы и разработка сложных функций. Он рассматривает все промежутки (то есть выражения) как потенциальные упоминания и находит возможные антецеденты для каждого промежутка. Промежутки представлены путем комбинирования зависимых от контекста представлений границ с механизмом обнаружения головы. Для каждого промежутка модель ранжирования промежутка дает решение, какой предыдущий промежуток является хорошим антецедентом. Функция обрезки обучена устранять меньше возможных упоминаний. Итоговая модель представляет собой ансамбль из 5 моделей с разными параметрами. По сравнению с моделью ранжирования упоминаний, модель ранжирования диапазона имеет большее пространство для обнаружения упоминаний.
Интервалы представлены встраиваемыми словами. Представления рассматривают две важные части: контекст, окружающий диапазон упоминания, и внутреннюю структуру в пределах диапазона. LSTM и одномерная сверточная нейронная сеть (CNN) над символами состоят из векторных представлений. Вместо синтаксического синтаксического анализатора, который обычно используется в Coreference Resolution, применяется механизм внимания с поиском головы над словами в каждом диапазоне. В процессе обучения оптимизируется предельная логарифмическая вероятность всех правильных антецедентов в кластеризации золота. В процессе оптимизации цели пролеты обрезаются. Устанавливается длина пролетов, количество учитываемых антецедентов. И промежутки ранжируются, и берутся только те, которые имеют наивысшие оценки.

Окончательный результат ансамблевой модели составляет 68,8%, что превосходит результаты всех предыдущих работ. Теперь лучший результат дает разрешение Coreference высшего порядка с грубым выводом (Lee et al, 2018). Из практических соображений мы реализовали сквозную модель, а не новейшую модель.

2.1 Введение в задачу

Сквозное разрешение Coreference построено для каждого возможного диапазона в документе. Задача состоит в том, чтобы найти наиболее вероятную антецедент yi для каждого диапазона. Набор возможных антецедентов - это фиктивный антецедент ε и все предыдущие промежутки. Две ситуации приводят к фиктивным антецедентам ε: (1) диапазон не является упоминанием сущности или (2) диапазон является упоминанием сущности, но он не коррелирует с каким-либо предыдущим диапазоном. Мы предполагаем, что это документ D, который содержит слова T вместе с метаданными для функций. Число возможных
интервалов в документе составляет N = T (T + 1) / 2. Мы обозначаем начальный и конечный индексы диапазона i в D как START (i) и END (i) , 1≤i≤N.

2.2 Представления диапазона

Представления промежутков являются ядром сквозной модели нейронного сопоставления. Мощные представления диапазона могут извлекать семантическую и синтаксическую информацию контекста, окружающего диапазон упоминания и внутреннюю структуру в пределах диапазона. Модель могла понять отношения между словами в соответствии со сходством слов, которое обеспечивают представления. Прежде всего, решающее значение имеют векторные вложения. Каждое слово имеет вложение вектора. Векторные представления, {x1,…, xT}, состоят из фиксированных предварительно обученных встраиваний слов (300-мерные вложения GloVe и 50-мерные турианские вложения) и одномерных сверточных нейронных сетей (CNN ) над персонажами.

2.3 Двунаправленные LSTM

Однонаправленные LSTM могут воспринимать информацию только из прошлого. Однако предыдущие слова не могут предоставить всю информацию о выражении или о том, к чему оно относится, что вызовет двусмысленность. В то время как двунаправленные LSTM могут получать информацию как в прошлом, так и в будущем. Это большое преимущество для Резолюции Coreference, потому что понимание отношений между словами во многом зависит от окружающих контекстов.

Двунаправленные LSTM имеют почти те же компоненты, что и LSTM, за исключением того, что у них есть два LSTM. Один из них принимает последовательность в прямом направлении, а другой принимает обратную последовательность в качестве входных данных. Архитектура представлена на рисунке.

Каждый уровень двунаправленных LSTM является независимым LSTM. В то время как выход - это конкатенация двух выходных векторов. Таким образом, формулы двунаправленных LSTM отличаются от LSTM, потому что это также зависит от направления. Предположим, что направление декларируется указателем направления δ = {−1, 1}.

2.4 Механизм внимания

Синтаксические заголовки, которые представляют собой наиболее важную синтаксическую информацию в диапазоне, обнаруживаются с помощью механизма внимания. В предыдущих исследованиях синтаксические главы представлялись как объекты. Основная идея механизма внимания состоит в том, чтобы определить наиболее значимую часть в диапазоне, а именно самую важную информацию в диапазоне.
Вход механизма внимания - это выход двунаправленных LSTM. С помощью нейронной сети с прямой связью векторное представление преобразуется в оценку слова αt. Затем вес каждого слова ai, t вычисляется с помощью модели выравнивания, которая измеряет, насколько важно это слово в этом диапазоне. Взвешенная сумма векторов слов - это конечный результат механизма внимания для диапазона.

Окончательное представление диапазона - это комбинация представлений границ, вектора мягкого заголовка и вектора признаков.

2.5 Стратегии подсчета очков и отсечения

Напоминаем, что задача состоит в том, чтобы найти наиболее вероятную антецедент для каждого пролета. Предыдущие кандидаты ранжируются в соответствии с парными оценками кореферентности s, которые состоят из оценок упоминаний sm и предшествующих оценок sa. Оценка упоминания подразумевает, является ли span упоминанием. И оценка антецедента указывает, является ли интервал антецедентом. Оценка упоминания sm и предыдущая оценка sa рассчитываются с помощью стандартных нейронных сетей с прямой связью.

Оценка парного сопоставления учитывает пару промежутков, промежуток i и промежуток j:

Фиктивный антецедент ε используется в двух ситуациях. Во-первых, диапазон не является упоминанием сущности. Во-вторых, диапазон является упоминанием объекта, но он не коррелирует с каким-либо предыдущим диапазоном.
Как только мы получим оценку кореференции, выходной слой, softmax решит, какой антецедент более вероятен для диапазона i.
Модель не будет сохранять все промежутки, созданные на первом этапе, как во время обучения, так и во время оценки. Причина в том, что сложность памяти модели достигает O (T4). Применение стратегии сокращения может удалить промежутки, которые вряд ли будут включены в кластеры Coreference. Будет ли сокращен диапазон или нет, зависит от оценки упоминания sm. Мы учитываем только пролеты шириной не более 10 и вычисляем их оценку упоминания sm. Сохраняются только интервалы до λT с наивысшими оценками упоминаний. Для каждого диапазона учитывается не более K антецедентов. Согласно документу, мы по-прежнему часто упоминаем отзыв, более 92% при λ = 0,4, даже несмотря на то, что мы используем эти агрессивные стратегии сокращения.

2.6 Этап обучения и оптимизации

В процессе обучения предельная логарифмическая вероятность всех правильных антецедентов, подразумеваемая золотой кластеризацией:

Выходным слоем модели является softmax, который зависит от оценок парной кореферентности. Мы изучим условное распределение вероятностей P (y1,…, yN | D), что означает, что конфигурация этого распределения может найти правильные кластеры. Что касается каждого промежутка, процесс нахождения его антецедента не зависит от других промежутков, мы можем разложить это распределение на произведение многочленов для каждого промежутка:

2.7 Архитектура модели

Теперь мы знаем, как работает модель внутри. Что касается архитектуры модели, то она состоит из двух частей. Одна часть - это диапазон, другая - архитектура партитуры.

Возьмем, к примеру, предложение: «General Electric сообщила, что с компанией связалась почтовая служба». Прежде всего, каждое слово в этом предложении будет представлено как вложение вектора, которое состоит из вложения слова и вложения символов CNN. На следующем шаге векторные вложения работают как входы для двунаправленных LSTM, которые выводят еще одно векторное вложение для каждого слова. Механизм внимания принимает выходные данные двунаправленных LSTM в качестве входных данных на уровне диапазона и обеспечивает вложение вектора. Кроме того, вложение элемента с определенными размерами также будет играть роль в представлении диапазона.

Наконец, мы достигаем представления диапазона с граничной информацией диапазона, представления, созданного механизмом внимания, и встраивания функции. Мы учитываем только определенное количество слов для подсчета баллов упоминания. Применяя стратегии сокращения, мы сохраняем определенное количество интервалов.
Затем мы вычисляем предыдущие оценки и оценки кореферентности. Выходной слой softmax будет решать, какой антецедент выбрать для каждого диапазона.

Использованная литература:

[1] Кевин Кларк и Кристофер Д. Мэннинг. Улучшение разрешения кореферентности за счет изучения распределенных представлений на уровне сущностей. Материалы 54-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи), 2016 г.

[2] Кевин Кларк и Кристофер Д. Мэннинг. Глубокое обучение с подкреплением для моделей кореферентного ранжирования по упоминанию. Труды конференции по эмпирическим методам обработки естественного языка, 2016 г., 2016 г.

[3] Кентон Ли, Лухенг Хе, Майк Льюис и Люк Зеттлемойер. Разрешение сквозной нейронной кореферентности. Труды конференции 2017 г. по эмпирическим методам обработки естественного языка, 2017 г.

Меня интересуют возможности делового сотрудничества в области науки о данных, искусственного интеллекта и блокчейна:

https://www.linkedin.com/in/lingjin2016/

Если вы найдете мои статьи полезными, подбодрите меня еще одним прекрасным биткойном:

3AyDNi2CToCphsLr9pdb3hcxKDcUxPDZ4H

Спасибо за чтение и поддержку!

Глубоко в сквозной модели нейронной привязки

1. Исследования о разрешении кореферентности

1.1 Модель пары упоминаний

1.2 Модель рейтинга упоминаний

1.3 Современные модели разрешения Coreference

2. Модель сквозной нейронной привязки

2.1 Введение в задачу

2.2 Представления диапазона

2.3 Двунаправленные LSTM

2.4 Механизм внимания

2.5 Стратегии подсчета очков и отсечения

2.6 Этап обучения и оптимизации

2.7 Архитектура модели

Использованная литература:

Вопросы по теме