Нейробиологи давно изучают внимание как важный когнитивный процесс. Он описывается как способность организмов выбирать подмножество доступной информации, на которой следует сосредоточиться для расширенной обработки и интеграции, и включает в себя три аспекта: ориентацию, фильтрацию и поиск. Зрительное внимание, например, является активной областью исследований. Наша способность сосредотачиваться на определенной области визуальной сцены и извлекать и обрабатывать информацию, поступающую в наш мозг, считается эволюционной чертой, которая почти гарантировала выживание нашего вида. Эта способность выбирать, обрабатывать и воздействовать на сенсорный опыт вдохновила целое направление исследований в области вычислительного моделирования зрительного внимания.

Визуальное внимание (изображение предоставлено Wikimedia)

Появление целого набора сложного оборудования для сканирования и изучения мозга еще больше разожгло энтузиазм в отношении исследований внимания. В недавнем исследовании с использованием отслеживания взгляда и данных фМРТ Леонг и соавт. продемонстрировали двунаправленное взаимодействие между вниманием и обучением: внимание способствует обучению, а усвоенные ценности, в свою очередь, определяют выбор внимания [1]. Отношения между вниманием и сознанием — сложный вопрос, во многом являющийся как научным, так и философским исследованием. Способность сосредоточить свои мысли на нескольких одновременных объектах или потоках мыслей и взять под контроль собственный разум ярким и сознательным образом — это не просто восхитительная и полезная привилегия. Это квинтэссенция нашего опыта человеческого бытия.

Учитывая их важность, механизмы внимания в последние годы привлекают все большее внимание (каламбур) со стороны сообщества ИИ. Подробное объяснение того, как они применяются в машинном обучении, потребует отдельного сообщения в блоге (я настоятельно рекомендую эту прекрасную статью Олаха и Картера), но, по сути, уровни внимания обеспечивают функциональность фокусировки на определенных элементах для повышения производительности. модель. Например, в задаче распознавания изображений он делает это, делая проблески входного изображения на каждом этапе, обновляя представления внутреннего состояния и затем выбирая следующее место для выборки. В загроможденной обстановке или когда входные данные слишком велики, внимание выполняет функцию расстановки приоритетов, отфильтровывая ненужные элементы. Это мощная техника, которую можно использовать при взаимодействии с нейронной сетью, вывод которой имеет повторяющуюся структуру. Например, применительно к дополнению LSTM (особый вариант рекуррентных нейронных сетей) он позволяет каждому шагу RNN выбирать информацию для просмотра из большего объема информации. Однако механизмы внимания полезны не только в RNN, как мы узнаем ниже.

Современное использование внимания в машинном обучении

В машинном обучении внимание особенно полезно в задачах прогнозирования последовательности. Давайте рассмотрим несколько основных областей, в которых он успешно применяется.

1. Обработка естественного языка

Механизмы внимания применялись во многих задачах, связанных с обработкой естественного языка (НЛП). Основополагающая работа Bahdanau et al. предложил нейронную модель машинного перевода, которая реализует механизм внимания в декодере для перевода с английского на французский [2]. Когда система считывает ввод на английском языке (кодер), декодер выводит перевод на французский язык, в результате чего механизм внимания посредством стохастического градиентного спуска учится смещать фокус, чтобы сосредоточиться на частях, окружающих переводимое слово. Было показано, что их модель на основе RNN превосходит традиционные модели на основе фраз с огромным отрывом. RNN — это действующая архитектура для текстовых приложений, но она не допускает распараллеливания, что ограничивает ее потенциал использования аппаратного обеспечения графического процессора, обеспечивающего современное машинное обучение. Группа исследователей искусственного интеллекта Facebook представила новый подход с использованием сверточных нейронных сетей (которые хорошо распараллеливаются) и отдельного модуля внимания на каждом уровне декодера. В отличие от одношагового внимания Багданау и др., их модуль внимания представляет собой многоступенчатый модуль внимания. Это означает, что вместо того, чтобы смотреть на предложение один раз, а затем переводить его, не оглядываясь назад, механизм делает несколько проблесков предложения, чтобы определить, что он будет переводить дальше. Их подход превзошел современные результаты для англо-немецкого и англо-французского перевода с на порядок большей скоростью [3]. Другие примеры механизмов внимания, применяемых в задачах НЛП, включают классификацию текста [4], языковую обработку (выполнение задач, описанных инструкциями на естественном языке в трехмерной игровой среде) [5] и понимание текста (ответы на близкие ответы). -стиль вопросов о документе) [6].

2. Распознавание объектов

Распознавание объектов — одна из отличительных черт машинного интеллекта. Мних и др. продемонстрировал, как можно использовать механизм внимания для игнорирования нерелевантных объектов в сцене, что позволяет модели хорошо работать в сложных задачах распознавания объектов в присутствии беспорядка [7]. В их модели рекуррентного внимания (RAM) агент получает частичное наблюдение за окружающей средой на каждом этапе и узнает, на чем сосредоточиться (т.е. обращать внимание) дальше посредством обучения RNN. Внимание используется для создания вектора признаков проблеска, при этом области вокруг целевого пикселя кодируются с высоким разрешением, а пиксели дальше от целевого пикселя используют постепенно более низкое разрешение. Используя аналогичный подход, в другом исследовании использовалась модель глубокого рекуррентного внимания как для локализации, так и для распознавания нескольких объектов на изображениях [8]. Сюй и др. обученная модель, которая автоматически обучается описывать содержание изображений [9]. Их модели внимания были обучены с использованием многослойного персептрона, который обусловлен некоторым предыдущим скрытым состоянием, а это означает, что то, куда сеть будет смотреть дальше, зависит от последовательности слов, которая уже была сгенерирована. Исследователи показали, как использовать сверточные нейронные сети, чтобы обращать внимание на изображения при выводе последовательности, то есть подписи к изображению. Другим преимуществом внимания в этом случае является понимание, полученное путем приблизительной визуализации того, где и на чем сфокусировано внимание (то есть, что видит модель).

Выявление ошибок при создании подписи к изображению с помощью визуального внимания (изображение взято из Xu et al., 2016)

3. Геймплей

Глубокая Q-сеть Google DeepMind (DQN) представляет собой значительный прогресс в обучении с подкреплением и прорыв в общем ИИ в том смысле, что он показал, что один алгоритм может научиться играть в самые разные игры Atari 2600: агент смог постоянно адаптируют свое поведение без какого-либо вмешательства человека. Сорокин и др. обратил внимание на уравнение и разработал рекуррентную Q-сеть глубокого внимания (DARQN) [10]. Их модель превзошла модель DQN, включив то, что они назвали мягкими и жесткими механизмами внимания. Сеть внимания принимает текущее состояние игры в качестве входных данных и генерирует вектор контекста на основе наблюдаемых признаков. Затем LSTM берет этот вектор контекста вместе с предыдущим скрытым состоянием и состоянием памяти, чтобы оценить действие, которое может предпринять агент. Чой и др. дальнейшее улучшение DARQN за счет реализации сети с несколькими фокусами внимания, в которой агент способен уделять внимание нескольким важным элементам [11]. В отличие от DARQN, в котором используется только один уровень внимания, модель использует несколько параллельных уровней внимания для внимания к объектам, имеющим отношение к решению проблемы.

4. Генеративные модели

Внимание также оказалось полезным в генеративных моделях, системах, которые могут имитировать (т. е. генерировать) значения любой переменной (входные и выходные) в модели. Хонг и др. разработали глубокую генеративную модель на основе сверточной нейронной сети для семантической сегментации (задачи присвоения меток классов группам пикселей на изображении) [12]. Включив механизмы, подобные вниманию, они смогли получить переносимые знания о сегментации по категориям. Механизм внимания адаптивно фокусируется на разных областях в зависимости от входных меток. Функция softmax используется, чтобы побудить модель обращать внимание только на часть изображения. Другой пример — нейронная сеть Deep Recurrent Attentive Writer (DRAW) от Google DeepMind для генерации изображений [13]. Внимание позволяет системе постепенно создавать изображение (показано на видео ниже). Модель внимания полностью дифференцируема (что позволяет тренироваться с градиентным спуском), что позволяет кодировщику сосредоточиться только на части ввода, а декодеру изменять только часть холста. Модель добилась впечатляющих результатов, генерируя изображения из набора данных MNIST, а при обучении на наборе данных Street View House Number она генерировала изображения, почти идентичные реальным данным.

5. Только внимание для задач НЛП

Другое интересное направление исследований сосредоточено на использовании одних только механизмов внимания для задач НЛП, которые традиционно решаются с помощью нейронных сетей. Васвани и др. разработал Transformer, простую сетевую архитектуру, основанную исключительно на новом многоголовом механизме внимания для задачи перевода [14]. Они вычисляют функцию внимания для набора запросов одновременно, используя скалярное произведение внимания (каждый ключ умножается на запрос, чтобы увидеть, насколько они похожи) с дополнительным коэффициентом масштабирования. Этот подход с несколькими головками позволяет их модели одновременно получать информацию с разных позиций. В их модели полностью исключены повторения и свертки, но все же удалось достичь современных результатов для переводов с английского на немецкий и с английского на французский. Более того, они достигли этого за значительно меньшее время обучения, а их модель хорошо распараллеливается. Более ранняя работа Париха и др. экспериментировали с простым подходом, основанным на внимании, для решения задач логического вывода [15]. Они использовали внимание, чтобы разбить проблему на подзадачи, которые можно решать по отдельности, что сделало модель тривиально распараллеливаемой.

Не просто винтик в машине

То, что мы уже узнали о внимании, говорит нам о том, что оно, вероятно, станет важным компонентом в развитии общего ИИ. С философской точки зрения это ключевая особенность человеческой психики, что делает ее естественным включением в занятия, связанные с серым веществом, в то время как в вычислительном отношении механизмы, основанные на внимании, помогли повысить производительность модели и добиться потрясающих результатов во многих областях. Внимание также оказалось универсальным методом, о чем свидетельствует его способность заменять повторяющиеся слои в машинном переводе и других задачах, связанных с НЛП. Но он наиболее эффективен при использовании в сочетании с другими компонентами, как Kaiser et al. продемонстрировали в своем исследовании Одна модель, чтобы изучить их все, которая представила модель, способную решать ряд проблем, охватывающих несколько областей [16]. Безусловно, механизмы внимания не лишены недостатков. Как предположили Ола и Картер, их склонность выполнять все действия на каждом этапе (хотя и в разной степени) потенциально может быть очень дорогостоящей в вычислительном отношении. Тем не менее, я считаю, что при модульном подходе к разработке общего ИИ — IMO, наш лучший выбор в этом квесте — внимание будет полезным и, возможно, даже незаменимым модулем.

использованная литература

[1] Леонг, Ю. К., Радулеску, А., Даниэль, Р., ДеВоскин, В., и Нив, Ю. (2017). Динамическое взаимодействие между обучением с подкреплением и вниманием в многомерных средах. Нейрон, 93(2), 451–463.

[2] Багданау, Д., Чо, К., и Бенжио, Ю. (2014). Нейронный машинный перевод путем совместного обучения выравниванию и переводу. Препринт arXiv arXiv: 1409.0473.

[3] Геринг Дж., Аули М., Грангье Д., Ярац Д. и Дофин Ю. Н. (2017). Сверточная последовательность для последовательного обучения. Препринт arXiv arXiv: 1705.03122.

[4] Ян З., Ян Д., Дайер К., Хе Х., Смола А. Дж. и Хови Э. Х. (2016). Иерархические сети внимания для классификации документов. В HLT-NAACL (стр. 1480–1489).

[5] Чаплот, Д.С., Сатьендра, К.М., Пасумарти, Р.К., Раджагопал, Д., и Салахутдинов, Р. (2017). Архитектуры закрытого внимания для языкового заземления, ориентированного на задачи. Препринт arXiv arXiv: 1706.07230.

[6] Дхингра, Б., Лю, Х., Ян, З., Коэн, В.В., и Салахутдинов, Р. (2016). Читатели с закрытым вниманием для понимания текста. Препринт arXiv arXiv: 1606.01549.

[7] Мних, В., Хесс, Н., и Грейвс, А. (2014). Рекуррентные модели зрительного внимания. В Достижениях в области систем обработки нейронной информации (стр. 2204–2212).

[8] Ба, Дж., Мних, В., и Кавуккуоглу, К. (2014). Распознавание нескольких объектов с зрительным вниманием. Препринт arXiv arXiv: 1412.7755.

[9] Сюй, К., Ба, Дж., Кирос, Р., Чо, К., Курвиль, А., Салахудинов, Р., … и Бенжио, Ю. (2016). Показывайте, посещайте и рассказывайте: генерация подписей к изображениям на основе нейронных сетей с визуальным вниманием. Препринт arXiv arXiv: 1502.03044.

[10] Сорокин И., Селезнев А., Павлов М., Федоров А. и Игнатьева А. (2015). Рекуррентная Q-сеть глубокого внимания. Препринт arXiv arXiv: 1512.01693.

[11] Чой, Дж., Ли, Б.Дж., и Чжан, Б.Т. (2017). Мультифокусная сеть внимания для эффективного глубокого обучения с подкреплением. Публикации AAAI, семинары на тридцать первой конференции AAAI по искусственному интеллекту.

[12] Хонг, С., О, Дж., Ли, Х., и Хан, Б. (2016). Изучение передаваемых знаний для семантической сегментации с помощью глубокой сверточной нейронной сети. В материалах конференции IEEE по компьютерному зрению и распознаванию образов (стр. 3204–3212).

[13] Грегор К., Данихелка И., Грейвс А., Резенде Д. Дж. и Вирстра Д. (2015). DRAW: рекуррентная нейронная сеть для генерации изображений. Препринт arXiv arXiv: 1502.04623.

[14] Васвани А., Шазир Н., Пармар Н., Ушкорейт Дж., Джонс Л., Гомес А. Н., … и Полосухин И. (2017). Внимание — это все, что вам нужно. Препринт arXiv arXiv: 1706.03762.

[15] Анкур Парих, Оскар Тэкстрём, Дипанджан Дас и Якоб Ушкорайт. Разложимая модель внимания. В «Эмпирических методах обработки естественного языка», 2016 г.

[16] Кайзер Л., Гомес А. Н., Шазир Н., Васвани А., Пармар Н., Джонс Л. и Ушкорейт Дж. (2017). Одна модель, чтобы изучить их все. Препринт arXiv arXiv: 1706.05137.

Первоначально опубликовано в Project AGI.