Модели кодировщика-декодера

Seq 2 Модели Seq

Приложения

  • переводчик Google
  • Автоответчик
  • Автоматическое предложение

Итоговая статья — Илья Суцкевер

Машинный перевод ==› Seq to Seq Models

Подпись к изображению

Математически

Приведенное выше утверждение означает найти y, который имеет наибольшую вероятность при заданном входе x. Это очень сложная вероятность, и для нее нет решения в закрытой форме.

В парах xi и yi xi может быть на одном языке, а yi будет на другом языке.

Для машинного перевода используемая потеря может минимизировать перекрестную энтропию или максимизировать логарифмическую вероятность.

Практическое применение

Модель Seq2Seq некоторое время использовалась для машинного перевода Google переводчиком в качестве основного алгоритма.

В gmail он использовался для автоответчика.

Подписи к изображению и тексту

Откройте Google-chrome и выберите поиск изображений. Введите любое описание и нажмите Enter. Будут отображены изображения/изображения, соответствующие описанию.

Google хорош в текстовом поиске, поэтому, используя модели кодирования-декодирования, он преобразовал поиск изображений в текстовый поиск.

Блок-схема кодировщика-декодера

Чое и все

Основное изменение в этой статье заключается в том, что вектор контекста передается в качестве входных данных для всех ячеек LSTM декодера.

LSTM может принимать один новый ввод и ввод с предыдущего временного шага.

В этом случае у нас есть три входа

  • Свежий ввод
  • Вход с предыдущего временного шага
  • Контекстный вектор

Поэтому был разработан новый LSTM, который может принимать три входа.

Проблема с этим подходом заключалась в том, что LSTM не был оптимизирован, что привело к меньшему внедрению в отрасли.

Эта архитектура не дала исключительных результатов по сравнению с подходом Ильи Суцекера.

Изображение ==> Заголовок Karapthy и все

кодер — это CNN, а декодер — это LSTM/GRU.

Последний слой CNN в основном нелинейный слой не добавляется. Слой softmax или tanh отсутствует в качестве последнего слоя. Можно не иметь этого слоя, так как мы не проводим никакой классификации.

o/p последнего уровня CNN будет вектором контекста, который будет передан в качестве входных данных декодеру. Это будет вход t-1 для первого LSTM.

Конечный вектор является сущностью изображения. Это похоже на вектор контекста изображения.

Этот вектор инкапсулирует всю информацию, содержащуюся в изображении, полученную моделью CNN.

Можно использовать любую модель CNN, чем сложнее CNN, тем лучше будут результаты. Но это означало бы использование большей вычислительной мощности и большего количества обучающих данных.

Последовательность начинается с предопределенного слова START или всех нулей и снова заканчивается предопределенным словом EOS. Мы перестаем потреблять входные данные, когда получаем EOS, и прекращаем генерировать выходные данные, когда модель генерирует выходные EOS.

использованная литература

  1. www.appliedaicourse.com

2. Последовательное обучение с помощью нейронных сетей

Илья Суцкевер, Ориол Виньялс, Куок В. Ле



3. Изучение представлений фраз с использованием кодировщика-декодера RNN для статистического машинного перевода

Кёнхён Чо, Барт ван Мерриенбур, Чаглар Гулчере, Дмитрий Богданов, Фети Бугарес, Хольгер Швенк, Йошуа Бенжио

https://arxiv.org/abs/1406.1078

4. Глубокие визуально-семантические выравнивания для создания описаний изображений

Андрей Карпаты, Ли Фей-Фей