Избирательное внимание: ключ к раскрытию полного потенциала глубокого обучения

Современные приложения

В последние годы механизмы внимания стали критически важными для обработки естественного языка (NLP) и компьютерного зрения (CV). Это позволяет машинам выборочно сосредотачиваться на частях входных данных, наиболее важных для задачи. Механизм внимания широко использовался в преобразователях, типе архитектуры нейронной сети, который стал современным для многих задач НЛП, таких как языковой перевод, ответы на вопросы и анализ настроений.

В преобразователях механизмы внимания позволяют моделям просматривать все токены во входных последовательностях и выборочно обращать внимание на наиболее важные из них при создании выходных последовательностей. Этот подход, основанный на внимании, показал себя очень эффективным в выявлении долгосрочных зависимостей и улучшении качества генерируемого вывода.

Например, при переводе на естественный язык механизм внимания позволяет модели ИИ сосредоточиться на наиболее релевантных словах в предложении на исходном языке при создании соответствующих слов в предложении на целевом языке. Точно так же в подписи к изображению механизм внимания позволяет модели ИИ выборочно обращать внимание на наиболее важные части изображения при создании соответствующей подписи.

Дополнительное внимание к продукту

Скалярное произведение внимания — это механизм внимания, который вычисляет веса внимания как скалярное произведение состояния декодера и состояний кодировщика. В точечном произведении внимания функция оценки выравнивания рассчитывается следующим образом:

где h относится к скрытым состояниям для кодировщика, а s — к скрытым состояниям для декодера.

В вычислительном отношении, учитывая состояние декодера и набор состояний кодировщика, веса внимания вычисляются как скалярное произведение между состоянием декодера и каждым состоянием кодировщика с последующей нормализацией оценок. Это эквивалентно мультипликативному вниманию без обучаемой весовой матрицы.

Точечный продукт внимания можно использовать для повышения точности выходных данных для таких задач, как анализ тональности и ответы на вопросы. Одним из примеров его применения является GPT-3.5 (GPT расшифровывается как Generative Pre-trained Transformer). GPT-3.5 использует внимание скалярного произведения в своей архитектуре преобразователя, чтобы модель могла обращать внимание на наиболее важные слова во входной последовательности при создании соответствующих слов в выходной последовательности. Это позволяет модели генерировать текст высокого качества, который является последовательным и согласуется с входным контекстом.

Функции оценки, нормализации и удобства

В контексте механизма внимания преобразователя функция подсчета очков определяет, насколько важен каждый входной токен для выхода на каждом временном шаге. Функция оценки вычисляет оценку для каждого токена на основе его сходства с текущим состоянием декодера, а затем нормализует оценки с помощью функции softmax. Полученные веса внимания затем используются для вычисления взвешенной суммы входных токенов, которая, в свою очередь, используется для вычисления вектора контекста для декодера.

Функция softmax гарантирует, что веса внимания, вычисленные функцией подсчета очков, образуют допустимое распределение вероятностей по входным токенам. Это позволяет модели выборочно обращать внимание на наиболее важные части входной последовательности и подавлять ненужную информацию.

Математически функция softmax обычно определяется следующим образом:

Где x — вектор оценок, вычисленных функцией оценки, а exp(x) — поэлементная экспоненциальная функция. Знаменатель функции softmax представляет собой сумму экспоненциальных оценок, что гарантирует, что итоговая сумма весов внимания равна 1.

Функция softmax имеет несколько желательных свойств, которые делают ее хорошим выбором для нормализации оценок внимания:

Это плавная и непрерывная функция, которая дифференцируема, что упрощает ее включение в обучение моделей машинного обучения.
Он создает действительное распределение вероятностей по входным токенам, что необходимо для эффективной работы механизма внимания.
Он эффективен в вычислительном отношении и может быть легко реализован с использованием стандартных численных библиотек.

Хотя функция softmax является наиболее часто используемой функцией нормализации в механизме внимания, существуют и другие функции, которые можно использовать для достижения аналогичного эффекта. Например, сигмовидную функцию можно использовать для нормализации оценок, хотя она имеет другой диапазон значений и не так эффективна для подавления ненужной информации. Другие функции, такие как функция log-softmax и функция softplus, также использовались в некоторых исследованиях, хотя они используются реже, чем функция softmax.

Взяв в качестве примера языковой перевод с помощью преобразователя, функции оценки позволяют модели сосредоточиться на наиболее релевантных словах в исходном предложении при создании соответствующих слов в целевом предложении. Этот механизм выборочного внимания позволяет модели фиксировать долгосрочные зависимости между входными и выходными данными, что повышает качество перевода.

И softmax, и линейные преобразования также известны как удобные функции, поскольку они могут помочь упростить вычисление показателей внимания в преобразователях. По сравнению с softmax линейное преобразование обычно включает в себя умножение входных представлений на обучаемую матрицу весов, за которой следует член смещения. Это позволяет модели изучить линейное преобразование входных представлений, специфичных для поставленной задачи.

Одним из примеров применения удобных функций в преобразователях является BERT (сокращение от двунаправленных представлений энкодера от преобразователей). BERT использует как softmax, так и линейные преобразования в своем механизме внимания, чтобы модель могла обращать внимание на наиболее важные части входной последовательности при вычислении представления предложения. Этот подход показал свою высокую эффективность в повышении точности таких задач, как ответы на вопросы и распознавание именованных объектов.

Внимание о масштабируемом точечном продукте

Масштабированное скалярное произведение внимания — это вариант скалярного произведения внимания, в котором используется коэффициент масштабирования, чтобы предотвратить взрыв скалярного произведения по мере увеличения размерности входных данных. В вычислительном отношении веса внимания рассчитываются как скалярное произведение между состоянием декодера и состояниями кодера, деленное на квадратный корень из размерности входных данных. Для мини-пакета из n запросов и m пар ключей соответствующая функция softmax может быть выражена следующим образом:

Рисунок 1 иллюстрирует последовательность действий в упрощенном примере, где представлен только один запрос.

Масштабированное скалярное произведение внимания широко используется в преобразователях не только потому, что оно может эффективно извлекать наиболее важную информацию из входной последовательности, но также потому, что оно может эффективно подавлять числовую нестабильность. В преобразователях внимание масштабированного скалярного произведения обычно используется как на уровне кодера, так и на уровне декодера.

Одним из примеров применения масштабированного скалярного произведения в трансформаторах является Transformer-XL. Transformer-XL использует масштабированное скалярное произведение в своей архитектуре, что позволяет модели генерировать высококачественный и связный текст, соответствующий входному контексту. Другой пример применения масштабированного скалярного произведения в преобразователях — T5 (сокращение от Text-To-Text Transfer Transformer). T5 использует масштабированное скалярное произведение в своей архитектуре, чтобы модель могла генерировать высококачественные результаты в различных задачах, таких как обобщение, ответы на вопросы и языковой перевод.

Дополнительное внимание

Аддитивное внимание — это тип механизма внимания, который вычисляет веса внимания как сумму состояний декодера и кодировщика, за которыми следует нелинейная функция активации, такая как гиперболический тангенс. В частности, учитывая состояние декодера и набор состояний кодировщика, веса внимания вычисляются как сумма состояния декодера и каждого состояния кодера, за которой следует нелинейная функция активации.

Аддитивное внимание реже используется в преобразователях, чем внимание скалярного произведения и масштабированное внимание скалярного произведения. Однако было показано, что он эффективен для захвата нелинейных отношений между входом и выходом.

В преобразователях с аддитивным вниманием, таких как разреженный преобразователь, он обычно развертывается как на уровне кодера, так и на уровне декодера. Это позволяет модели уменьшить вычислительную сложность, по-прежнему обращая внимание на наиболее важные части входной последовательности и достигая современной производительности.

Другим примером является модель реформатора. Reformer использует аддитивное внимание в своей архитектуре преобразователя, чтобы позволить модели снизить требования к памяти механизма внимания, но при этом достичь высокого качества работы в языковом моделировании.

От НЛП к компьютерному зрению

До появления механизмов внимания многие модели машинного обучения полагались на входные представления фиксированной длины, такие как набор слов или векторы признаков фиксированной длины. Хотя эти модели были эффективны в некоторых приложениях, они не могли отразить сложные и динамические отношения между вводом и выводом.

Например, в НЛП широко использовались традиционные модели, такие как модели n-грамм, скрытые марковские модели и условные случайные поля. Однако они были ограничены в улавливании дальних зависимостей между словами в предложении. В результате у них часто возникали трудности с такими задачами, как языковой перевод и анализ настроений, где крайне важно понимать контекст и взаимосвязь между словами.

Внедрение механизмов внимания в такие модели, как преобразователь, стало крупным прорывом в НЛП, позволив моделям выборочно обращать внимание на наиболее важные части входной последовательности и фиксировать долгосрочные зависимости между словами.

Точно так же в компьютерном зрении традиционные модели, такие как сверточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN), были эффективны в некоторых приложениях. Тем не менее, они боролись с такими задачами, как распознавание объектов и создание подписей к изображениям, где решающее значение имеет понимание контекста и взаимосвязи между различными частями изображения.

Внедрение механизмов внимания в такие модели, как Vision Transformer (ViT) и сети пространственного внимания (SAN) на основе DenseNet, позволило этим моделям достичь самых современных результатов в различных задачах компьютерного зрения.

Чтобы понять, почему такие модели, как ViT и SAN, превзошли традиционные модели, такие как CNN и RNN, давайте кратко рассмотрим их соответствующие базовые архитектуры.

В традиционных CNN входное изображение проходит через серию сверточных слоев и слоев объединения для извлечения признаков в разных масштабах. Затем эти функции проходят через один или несколько полносвязных слоев для создания окончательного результата. Одним из недостатков такой архитектуры CNN являются ее ограниченные возможности в распознавании объектов и подписях к изображениям, где жизненно важно понимать контекст и взаимосвязь между различными частями изображения.

Включение механизма внимания в архитектуру CNN устранило это ограничение. Например, в SAN механизм внимания используется для вычисления пространственных карт внимания, которые позволяют модели сосредоточиться на наиболее информативных областях входного изображения.

Точно так же в архитектуре ViT входное изображение сначала делится на сетку патчей, которые затем проходят через последовательность линейных проекций для создания последовательности векторов признаков. Затем используется механизм внимания для вычисления релевантности каждого исправления конечному результату, что позволяет модели выборочно обращать внимание на наиболее релевантные исправления.

Математически механизм внимания в ViT и SAN может быть выражен как взвешенная сумма входных признаков, где веса вычисляются с использованием функции softmax, примененной к функции оценки. Функция оценки может быть основана на скалярном произведении, евклидовом расстоянии или других мерах расстояния, в зависимости от конкретного приложения.

На рис. 2 показан принцип архитектуры ViT, в которой механизм внимания реализован в виде многоголового внимания.

Одним из преимуществ механизма внимания в этих моделях является то, что он позволяет модели фиксировать долгосрочные зависимости между различными частями входных данных, что имеет решающее значение для таких задач, как создание подписей к изображениям и распознавание объектов. Более того, механизм внимания способен фокусироваться на наиболее информативных областях ввода, уменьшая влияние зашумленных или нерелевантных признаков.

Таким образом, механизм внимания позволил таким моделям, как ViT и SAN, достичь высокого качества выполнения широкого круга задач компьютерного зрения, позволив им выборочно обращать внимание на наиболее важные части входного изображения и фиксировать долгосрочные зависимости между ними. различные части ввода. Включая механизмы внимания в традиционные CNN и RNN, исследователи могут создавать более мощные и точные модели, которые могут решать все более сложные проблемы компьютерного зрения.

Ограничения

Несмотря на множество преимуществ, важно отметить, что механизм внимания не является панацеей, способной решить все проблемы глубокого обучения. Мало того, что он может быть неэффективен для всех типов наборов данных или для всех типов задач, на его производительность могут влиять такие факторы, как размер входной последовательности и сложность архитектуры модели. Как и любой инструмент, его ограничения требуют тщательного рассмотрения при разработке и реализации моделей глубокого обучения.

Например, одной из проблем является вычислительная сложность моделей, основанных на внимании, для обучения и развертывания которых могут потребоваться значительные ресурсы. Следовательно, необходимы исследования новых методов, таких как разреженное внимание и аппроксимация низкого ранга, для снижения вычислительных затрат, связанных с механизмом внимания.

Еще одной проблемой является интерпретируемость моделей, основанных на внимании. Хотя механизм внимания может дать представление о том, какие части входных данных наиболее важны для данного результата, может быть сложно интерпретировать и понять, как модели приходят к своим общим прогнозам. Чтобы решить эту проблему, возможно, потребуется изучить новые методы, такие как визуализация внимания и атрибуция внимания, чтобы понять, как модели, основанные на внимании, делают свои прогнозы и сделать их более надежными и объяснимыми.

Будущие возможности

С ростом доступности крупномасштабных наборов данных и мощных вычислительных ресурсов механизмы внимания будут продолжать совершенствоваться и оптимизироваться, что приведет к еще более впечатляющим результатам в различных задачах. Исследователи также изучают новые направления в исследованиях механизмов внимания, такие как внимание с несколькими головами и внимание к себе, которые могут еще больше повысить производительность моделей машинного обучения.

Кроме того, механизм внимания можно использовать в сочетании с другими методами, такими как трансферное обучение и предварительное обучение, для дальнейшего повышения производительности моделей компьютерного зрения. Например, ViT можно предварительно обучить на крупномасштабных наборах данных изображений с использованием таких методов, как контрастное обучение или обучение с самоконтролем, что позволяет ему изучать общие функции, которые можно точно настроить для конкретных задач.

Точно так же SAN можно комбинировать с методами трансферного обучения, такими как тонкая настройка предварительно обученных CNN, для повышения их производительности при выполнении конкретных задач. Включив механизмы внимания в эти методы предварительного обучения и передачи обучения, мы сможем создавать более эффективные и действенные модели, которые могут учиться на крупномасштабных наборах данных и достигать самых современных результатов в широком диапазоне компьютерного зрения. задания.

Помимо применения в НЛП и компьютерном зрении, механизмы внимания также можно исследовать в других областях, таких как распознавание речи, финансы, здравоохранение и климатология. Например, механизм внимания используется в моделях распознавания речи для выборочного внимания к наиболее информативным частям аудиосигнала и повышения точности.

В целом, механизм внимания произвел революцию в области глубокого обучения. Решая проблемы и ограничения механизмов внимания и исследуя их полный потенциал в различных областях, мы сможем открыть новые возможности и добиться еще больших успехов в области искусственного интеллекта.

Позвольте мне воспользоваться этой возможностью, чтобы поблагодарить вас за то, что вы здесь! Я бы не смог делать то, что я делаю, без таких людей, как вы, которые следуют за мной и совершают этот прыжок веры, чтобы читать мои сообщения.

Если вам нравится мой контент, нажмите кнопку Подписаться в правом верхнем углу экрана (под моей фотографией). После того, как вы нажмете кнопку, Medium запомнит, чтобы сообщать вам о моих публикациях в режиме реального времени. Со мной также можно связаться в LinkedIn, Facebook или Twitter: Twitter.

Механизмы внимания в трансформерах | Искусственный уголок (medium.com)