В этом посте резюмируется статья «Последовательное обучение с помощью нейронных сетей».

Ссылка на документ: https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf

Илья Суцкевер, Ориол Виньялс, Куок В. Ле, 2014, Обучение последовательностям с помощью нейронных сетей, стр. 3104–311 в NIPS 2014

В этой статье авторы представляют модель последовательного обучения с использованием нейронных сетей, в частности сетей долговременной краткосрочной памяти (LSTM), которые являются типом рекуррентной нейронной сети. Этот документ важен с точки зрения того, что он является первопроходцем, представляющим эту модель, которая широко используется в настоящее время с небольшими изменениями для задач последовательного обучения, таких как машинный перевод и чат-боты. Эти две задачи являются хорошими примерами последовательного обучения, поскольку в обоих из них; выходная последовательность создается для заданного входного предложения обученной сетью.

Модель, представленная в этой статье, называется моделью кодер-декодер. Основная идея этой модели состоит в том, чтобы сначала обработать входное предложение кодирующей частью сети и получить фиксированное векторное представление. После получения этого вектора декодерная часть сети начинает свою обработку с этим фиксированным представлением вектора и на каждом временном шаге декодерной сети выдает выходные данные. Операция останавливается, когда создается специальный маркер, показывающий конец предложения. Распределенные представления слов используются в качестве входных данных для сети кодировщика. На выходе на каждом временном шаге слово выбирается из определенного словарного списка. На стороне декодера, после части декодера, сеть классификатора используется для создания слова из вывода на каждом временном шаге. Сети LSTM используются в этой статье из-за их способности фиксировать долгосрочные отношения. В статье также показаны эксперименты по задаче машинного перевода с английского на французский. Результаты моделирования показывают, что представленный подход превосходит существующие исследования.