Большая птица: Трансформеры для более длинных сцен

Резюме. Использование более длинных последовательностей за счет улучшения Transformer за счет скудного внимания.

Оригинал (и с более качественным латексом) по адресу: https://atakanokan.com/papersummaries/2020-big-bird-transformers-for-longer-sequences/

Информация

Ссылка: Arxiv

Документ: Google Research

Почему эта статья важна ?: Рассматривает квадратичную зависимость традиционного механизма внимания от памяти и предлагает разреженное внимание, которое может справиться с более длинными последовательностями.

Код: NA

Резюме

В этой статье рассматриваются ограничения полного внимания, используемого моделями Transformer, путем введения механизма разреженного внимания, который использует память, которая линейно масштабируется в соответствии с длиной последовательности.

Вход

Начните с \ (\ textbf {x} \), которая является входной последовательностью, которая токенизируется (классическим разделением пробелов, парным байтовым кодированием или Wordpiece и т. Д.):

\ [\ textbf {x} = (x_ {1},..., x_ {n}) \]

где \ (x_ {1} \) будет соответствовать первому токену. \ (n \) - длина последовательности.

Скудное внимание

\ (D \) - ориентированный граф, набор вершин которого равен \ ([n] = {1,…, n} \), а направленные ребра представляют собой внутренние продукты, составляющие механизм внимания. \ (N (i) \) обозначает набор внешних соседей узла \ (i \) в \ (D \).

Выходной вектор \ (i ^ {th} \) механизма внимания:

\ [ATTN_ {D} (X) _ {i} = \ textbf {x} _ {i} + \ sum_ {h = 1} ^ {H} \ sigma (Q_ {h} (\ textbf {x} _ { i} K_ {h} (\ textbf {X} _ {N (i)}) ^ {T}) \ cdot V_ {h} (\ textbf {X} _ {N (i)})) \]

где \ (Q_h \) - функция запроса, \ (K_ {h} \) - ключевая функция, а \ (V_ {h} \) - функция значения. \ (\ sigma \) - функция подсчета очков (softmax или hardmax). \ (H \) - количество голов в модулях внимания с несколькими головами.

Матрица \ (A \) (матрица внимания) представляет собой двоичную матрицу \ (n \) x \ (n \), где \ (A (i, j) = 1 \), если запрос \ (i \) касается ключевого \ (j \) и равен нулю в противном случае. Когда все единицы А - это традиционный механизм полного внимания. Поскольку каждый токен соответствует любому другому токену, потребность в памяти квадратична.

Слабое внимание состоит из слияния всех трех следующих частей (которые показаны на рисунке 1):

Случайное внимание

Каждый запрос обрабатывает \ (r \) случайное количество ключей. Математически \ (A (i, \ cdot) = 1 \) для \ (r \) случайно выбранных ключей.

(Скользящее) окно Внимание

В данных NLP очень много ссылок, то есть информация о токене может быть получена из соседних токенов. Для этого BigBird использует скользящее окно шириной \ (w \). Запрос в местоположении \ (i \) проходит от клавиш \ (i - w / 2 \) до \ (i + w / 2 \). Математически \ (A (i, i-w / 2: i + w / 2) = 1 \).

Внимание всего мира

Глобальные токены - это токены, которые относятся ко всем токенам в последовательности и которым все токены относятся. BigBird использует это понятие глобального токена двумя способами:

BIGBIRD-ITC (конструкция внутреннего преобразователя): сделайте некоторые существующие токены «глобальными» и сделайте так, чтобы они присутствовали на протяжении всей входной последовательности.
BIGBIRD-ETC (Расширенная конструкция преобразователя): добавьте \ (g \) дополнительные «глобальные» токены (например, CLS), которые относятся ко всем существующим токенам. Это расширяет столбцы и строки матрицы \ (A \) на \ (g \) строк / столбцов.

Результаты

Слабое внимание позволяет механизму обрабатывать последовательности в 8 раз дольше. Можно использовать контрольную точку градиента для обработки последовательностей ›в 8 раз большей длины. Ниже приведены результаты выполнения задач НЛП. Результаты, относящиеся к геномике, не приводятся.