Человеческий вектор: включите встраивание динамиков, чтобы сделать вашего бота более мощным

Как мы оцениваем ИИ? Возможно, вы недавно слышали о беспилотных автомобилях; их освобождение кажется неизбежным. У беспилотных автомобилей есть четкая цель для оценки: не разбиваться. Кроме того, чтобы избежать несчастных случаев, не существует понятия о том, насколько хорошо автомобиль едет.

В инженерной задаче диалоговых агентов порог того, что мы хотим, становится выше и неопределеннее. В разговорном ИИ есть аналог не прекращать работу: функциональные сбои. Мы можем сказать, когда боты нас не понимают. Они отвечают так, что не отвечают на наши вопросы, не имеют отношения к разговору или просто не имеют смысла. Исследователи, стоящие за моделью нейронного разговора на основе личности, указывают на более тонкий способ, которым боты могут терпеть неудачу: их (отсутствие) личности.

В человеческих разговорах мы полагаемся на предположения о том, как себя ведут другие говорящие. Это известно как принцип сотрудничества в области прагматики. Этот принцип разбивается на максимы для речи, которой выступающие либо следуют, либо пренебрегают. Короче говоря, мы полагаемся на других, которые говорят правдивые заявления, предоставляют как можно больше информации, являются актуальными и говорят вещи надлежащим образом. Когда говорящие намеренно пренебрегают этими максимами, это несет в себе смысл, который мы можем понять (например, сарказм, в котором говорящий делает заявления, которые явно не соответствуют действительности). Однако непреднамеренное отклонение от максим может сорвать разговор.

Рассмотрим эти примеры обмена из «Модели нейронного разговора на основе личности»:

Проблема здесь в том, что наше знание мира делает это явным нарушением Максима качества (перефразируйте: говорите правду). Один человек не может жить в двух разных местах или одновременно находиться в двух разных возрастных категориях. Это означает, что мы понимаем, что по крайней мере некоторые из ответов не соответствуют действительности. Вполне возможно, что опытный говорящий по-английски мог бы намеренно сделать те же самые утверждения и внести в процесс импликатуру. Например, в последнем сообщении, приведенном выше, респондент мог пошутить по поводу количества чтения, необходимого для психиатрической специальности. Смешно ли это на самом деле - дело вкуса. Разница с ботами в том, что мы не ждем юмора. Нам становится ясно, что непоследовательные ответы являются непреднамеренными, и это затрудняет общение.

Специфическая проблема непоследовательных ответов является неотъемлемой частью языкового моделирования, поскольку системы, управляемые данными, ориентированы на создание ответов с наибольшей вероятностью, независимо от источника этого ответа. При поиске в пространстве вывода вывод делается на основе наиболее вероятной последовательности слов, которые следует другой последовательности в соответствии с моделью. В упомянутом выше исследовании базовой моделью является рекуррентная нейронная сеть LSTM, архитектура, обычная для разговорного ИИ. Он использует функцию softmax для создания распределения вероятностей по возможным выходам и выбирает наиболее вероятное следующее слово в последовательности, независимо от того, кто его сгенерировал в обучающих данных. Человеческие носители ожидают постоянных образов от ботов, с которыми они разговаривают, а современные методы игнорируют это.

Ли и др. описывать персонажей как «составные элементы идентичности (фоновые факты или профиль пользователя), языкового поведения и стиля взаимодействия» (1). Персона основана на реальном человеке, который сгенерировал часть обучающих данных, и представлен вектором, встраиванием говорящего. Они случайным образом инициализируют вложения динамиков и изучают их во время обучения.

Базовый LSTM можно графически представить следующим образом:

где x представляет слово, встраиваемое в последовательность, c представляет скрытый слой, а h представляет выходные данные модели, все одновременно т. Цветные прямоугольники представляют ворота, которые преобразуют входные векторы. Модель также может быть представлена следующими функциями (в которых e заменяет x для представления встраивания слова), где i, f, o, и l представляют собой разноцветные ворота наверху.

В чем Ли и др. термин «модель динамика», они вводят модель с встраиваемым динамиком, v, что можно увидеть на ее представлении ниже.

Это добавляет информацию о говорящем i на каждый временной шаг последовательности. Это эквивалентно добавлению входного узла v в скрытый слой графической модели LSTM, отмеченный синим вентилем. Включение встраивания динамиков в модель LSTM улучшило ее производительность, уменьшило недоумение и увеличило оценку BLEU в большинстве наборов данных, изученных исследователями.

Исследователи также отметили, что одна личность должна быть адаптируемой. Человек не обращается к своему начальнику так, как он обращается к своему младшему брату. Из-за этого они также решили попробовать то, что они назвали моделью «говорящий-адресат». Эта модель заменяет встраивание пары громкоговорителей, V, для встраивания громкоговорителей, как показано ниже. Встраивание пары динамиков предназначено для моделирования взаимодействия между отдельными людьми.

Аналогичного успеха добилась и модель «спикер-адресат». Это особенно приятный результат, который модель «говорящий-адресат» генерирует при обучении на данных разговора в фильмах (со ссылкой на отношения персонажей в Друзья и Теория большого взрыва):

Важный вывод из исследования Ли и др. Состоит в том, что ИИ - это разнообразная область с рядом различных задач, требующих тонких решений. Нейронные сети - это здорово, но если с ними обращаться как с черным ящиком, они могут работать только со сложными задачами, такими как общение. Нам нужно учитывать то, что мы на самом деле ожидаем от бота. Сплоченные, адаптивные личности и системы, созданные с учетом этих ожиданий, являются ключом к достижению сложных результатов. В конце концов, мы хотим от ботов большего, чем просто избегать сбоев и выгорания.

Хотите ранний доступ к Init.ai? Зарегистрируйтесь и будьте одними из первых, кто воспользуется платформой!

Меган - разработчик программного обеспечения, работающий над инфраструктурой машинного обучения.

Если вы хотите узнать больше о диалоговых интерфейсах, подпишитесь на нее в Medium и Twitter.

А если вы хотите создать диалоговое приложение для своей компании, посетите Init.ai и наш блог на Medium или свяжитесь с нами в Twitter.

Ознакомьтесь с оригинальным исследованием, упомянутым в этой статье, здесь.

Человеческий вектор: включите встраивание динамиков, чтобы сделать вашего бота более мощным

Вопросы по теме