Refine Networks имитирует человеческий процесс создания любого фрагмента текста, сначала создавая первоначальный черновик, а затем уточняя его.

В этой статье мы обсудим Refine Networks (RefNet), предложенные в документе EMNLP 2019 - Давайте спросим еще раз: уточним сеть для автоматической генерации вопросов. RefNet черпает вдохновение у людей при создании предложений, сначала составляя черновой вариант, а затем уточняя его за несколько проходов. Мы ограничим наше обсуждение автоматическим генерированием вопросов (AQG), хотя в принципе RefNet может быть применен к другим задачам генерации естественного языка. AQG - это задача генерации вопроса с учетом отрывка и ответа (например, рисунок 1). Желательно, чтобы сгенерированный вопрос был (i) грамматически правильным, (ii) отвечал на основе отрывка и (iii) соответствовал данному ответу.

Почему RefNet?

Первый вопрос, который у вас может возникнуть, это

В чем проблема существующих подходов? Зачем нам RefNet?

Анализ существующих моделей AQG показывает, что они порождают вопросы, которые не соответствуют одному или нескольким важным качествам вопроса. В частности, сгенерированные вопросы выглядят как неполный черновик желаемого вопроса с четкими возможностями для уточнения. Например, на рисунке 1 (слева) вопрос, созданный базовой моделью, является неполным. Справа базовый вопрос не связан с ответом.

Чтобы устранить этот недостаток, RefNet пересматривает отрывок, ответ и начальный черновик, чтобы сформулировать лучший вопрос во втором проходе. Кроме того, Reward-RefNet использует явные сигналы вознаграждения для достижения уточнения, сосредоточенного на определенных свойствах вопроса, таких как беглость и возможность ответа.

RefNet

RefNet - это модель на основе seq2seq, которая состоит из двух декодеров: предварительного и уточняющего декодера. Уточняющий декодер принимает начальный черновик вопроса, сгенерированный предварительным декодером, в качестве входных данных вместе с отрывком и ответом для генерации уточненного вопроса. RefNet обращается как к отрывку, так и к начальному черновику, используя сеть двойного внимания, чтобы повторно посещать соответствующие части входного отрывка и начального черновика. Общая архитектура модели показана на рисунке 3. Примеры на рисунке 1 показывают, что RefNet может генерировать лучшие вопросы во втором проходе, исправляя ошибки в первоначальном проекте.

Награда-RefNet

Затем Reward-RefNet отвечает на следующие вопросы:

Может ли уточняющий декодер быть явно вознагражден за создание вопроса, который лучше, чем тот, который был сгенерирован предварительным декодером на основе определенной желаемой метрики?

Хотя мы обычно используем логарифмическую потерю правдоподобия во время обучения, метрики, которые нам часто нужны во время вывода, сильно отличаются (обычно они недифференцируемы). Мы хотим, чтобы сгенерированный вопрос был (i) свободным и (ii) отвечал. Работа (Nema and Khapra, 2018) определяет беглость и ответственность с использованием показателей BLEU и Q-BLEU соответственно. Reward-RefNet использует эти вознаграждения в целевой функции на основе RL, чтобы поощрять изменения, которые приводят к улучшению по сравнению с желаемой метрикой.

Цель обучения на основе RL

Reward-RefNet использует алгоритм «REINFORCE с базовой линией» (Williams, 1992), чтобы вознаградить уточняющий декодер, используя вознаграждение предварительного декодера в качестве базовой линии. Более конкретно, учитывая сгенерированную предварительным и уточняющим декодером последовательность слов = {q̃1, q̃2,. . . , q̃T} и Q = {q1, q2,. . . , qT} соответственно потеря обучения определяется следующим образом:

где r (Q) и r () - награды, полученные путем сравнения с контрольным вопросом Q ∗ (либо BLEU, либо Q-BLEU )

Результаты и обсуждения

RefNet превосходит существующие современные методы на 7–16% по трем наборам данных, а именно, SQuAD, HOTPOT-QA и DROP по метрике BLEU-4. Подробное сравнение RefNet и других современных моделей показано на рисунке 4. Примечание. Базовая модель с одним декодером, содержащая кодер и предварительный декодер, называется модель Encode-Attend-Decode (EAD).

Эти результаты были дополнительно подтверждены человеческими оценками, когда аннотаторы сравнивали качество вопросов, сгенерированных из RefNet и EAD. Более 68,6%, 66,7% и 64,2% вопросов, сгенерированных RefNet, были соответственно более беглыми, полными и доступными по сравнению с моделью EAD.

Сравнение RefNet и Reward-RefNet в наборе данных SQuAD (на уровне предложения) показано на рисунке 5. Мы видим, что, когда BLEU и оценка ответа используются в качестве сигнала вознаграждения в Reward-RefNet, беглость ответа на соответствующий вопрос и возможность ответа на него улучшаются. .

Читателям предлагается прочитать весь документ для подробного обсуждения и анализа моделей.