Модели кодировщика-декодера
Seq 2 Модели Seq
Приложения
- переводчик Google
- Автоответчик
- Автоматическое предложение
Итоговая статья — Илья Суцкевер
Машинный перевод ==› Seq to Seq Models
Подпись к изображению
Математически
Приведенное выше утверждение означает найти y, который имеет наибольшую вероятность при заданном входе x. Это очень сложная вероятность, и для нее нет решения в закрытой форме.
В парах xi и yi xi может быть на одном языке, а yi будет на другом языке.
Для машинного перевода используемая потеря может минимизировать перекрестную энтропию или максимизировать логарифмическую вероятность.
Практическое применение
Модель Seq2Seq некоторое время использовалась для машинного перевода Google переводчиком в качестве основного алгоритма.
В gmail он использовался для автоответчика.
Подписи к изображению и тексту
Откройте Google-chrome и выберите поиск изображений. Введите любое описание и нажмите Enter. Будут отображены изображения/изображения, соответствующие описанию.
Google хорош в текстовом поиске, поэтому, используя модели кодирования-декодирования, он преобразовал поиск изображений в текстовый поиск.
Блок-схема кодировщика-декодера
Чое и все
Основное изменение в этой статье заключается в том, что вектор контекста передается в качестве входных данных для всех ячеек LSTM декодера.
LSTM может принимать один новый ввод и ввод с предыдущего временного шага.
В этом случае у нас есть три входа
- Свежий ввод
- Вход с предыдущего временного шага
- Контекстный вектор
Поэтому был разработан новый LSTM, который может принимать три входа.
Проблема с этим подходом заключалась в том, что LSTM не был оптимизирован, что привело к меньшему внедрению в отрасли.
Эта архитектура не дала исключительных результатов по сравнению с подходом Ильи Суцекера.
Изображение ==> Заголовок Karapthy и все
кодер — это CNN, а декодер — это LSTM/GRU.
Последний слой CNN в основном нелинейный слой не добавляется. Слой softmax или tanh отсутствует в качестве последнего слоя. Можно не иметь этого слоя, так как мы не проводим никакой классификации.
o/p последнего уровня CNN будет вектором контекста, который будет передан в качестве входных данных декодеру. Это будет вход t-1 для первого LSTM.
Конечный вектор является сущностью изображения. Это похоже на вектор контекста изображения.
Этот вектор инкапсулирует всю информацию, содержащуюся в изображении, полученную моделью CNN.
Можно использовать любую модель CNN, чем сложнее CNN, тем лучше будут результаты. Но это означало бы использование большей вычислительной мощности и большего количества обучающих данных.
Последовательность начинается с предопределенного слова START или всех нулей и снова заканчивается предопределенным словом EOS. Мы перестаем потреблять входные данные, когда получаем EOS, и прекращаем генерировать выходные данные, когда модель генерирует выходные EOS.
использованная литература
2. Последовательное обучение с помощью нейронных сетей
Илья Суцкевер, Ориол Виньялс, Куок В. Ле
3. Изучение представлений фраз с использованием кодировщика-декодера RNN для статистического машинного перевода
Кёнхён Чо, Барт ван Мерриенбур, Чаглар Гулчере, Дмитрий Богданов, Фети Бугарес, Хольгер Швенк, Йошуа Бенжио
https://arxiv.org/abs/1406.1078
4. Глубокие визуально-семантические выравнивания для создания описаний изображений