Резюме. Использование более длинных последовательностей за счет улучшения Transformer за счет скудного внимания.
Оригинал (и с более качественным латексом) по адресу: https://atakanokan.com/papersummaries/2020-big-bird-transformers-for-longer-sequences/
Информация
Ссылка: Arxiv
Документ: Google Research
Почему эта статья важна ?: Рассматривает квадратичную зависимость традиционного механизма внимания от памяти и предлагает разреженное внимание, которое может справиться с более длинными последовательностями.
Код: NA
Резюме
В этой статье рассматриваются ограничения полного внимания, используемого моделями Transformer, путем введения механизма разреженного внимания, который использует память, которая линейно масштабируется в соответствии с длиной последовательности.
Вход
Начните с \ (\ textbf {x} \), которая является входной последовательностью, которая токенизируется (классическим разделением пробелов, парным байтовым кодированием или Wordpiece и т. Д.):
\ [\ textbf {x} = (x_ {1},..., x_ {n}) \]
где \ (x_ {1} \) будет соответствовать первому токену. \ (n \) - длина последовательности.
Скудное внимание
\ (D \) - ориентированный граф, набор вершин которого равен \ ([n] = {1,…, n} \), а направленные ребра представляют собой внутренние продукты, составляющие механизм внимания. \ (N (i) \) обозначает набор внешних соседей узла \ (i \) в \ (D \).
Выходной вектор \ (i ^ {th} \) механизма внимания:
\ [ATTN_ {D} (X) _ {i} = \ textbf {x} _ {i} + \ sum_ {h = 1} ^ {H} \ sigma (Q_ {h} (\ textbf {x} _ { i} K_ {h} (\ textbf {X} _ {N (i)}) ^ {T}) \ cdot V_ {h} (\ textbf {X} _ {N (i)})) \]
где \ (Q_h \) - функция запроса, \ (K_ {h} \) - ключевая функция, а \ (V_ {h} \) - функция значения. \ (\ sigma \) - функция подсчета очков (softmax или hardmax). \ (H \) - количество голов в модулях внимания с несколькими головами.
Матрица \ (A \) (матрица внимания) представляет собой двоичную матрицу \ (n \) x \ (n \), где \ (A (i, j) = 1 \), если запрос \ (i \) касается ключевого \ (j \) и равен нулю в противном случае. Когда все единицы А - это традиционный механизм полного внимания. Поскольку каждый токен соответствует любому другому токену, потребность в памяти квадратична.
Слабое внимание состоит из слияния всех трех следующих частей (которые показаны на рисунке 1):
Случайное внимание
Каждый запрос обрабатывает \ (r \) случайное количество ключей. Математически \ (A (i, \ cdot) = 1 \) для \ (r \) случайно выбранных ключей.
(Скользящее) окно Внимание
В данных NLP очень много ссылок, то есть информация о токене может быть получена из соседних токенов. Для этого BigBird использует скользящее окно шириной \ (w \). Запрос в местоположении \ (i \) проходит от клавиш \ (i - w / 2 \) до \ (i + w / 2 \). Математически \ (A (i, i-w / 2: i + w / 2) = 1 \).
Внимание всего мира
Глобальные токены - это токены, которые относятся ко всем токенам в последовательности и которым все токены относятся. BigBird использует это понятие глобального токена двумя способами:
- BIGBIRD-ITC (конструкция внутреннего преобразователя): сделайте некоторые существующие токены «глобальными» и сделайте так, чтобы они присутствовали на протяжении всей входной последовательности.
- BIGBIRD-ETC (Расширенная конструкция преобразователя): добавьте \ (g \) дополнительные «глобальные» токены (например, CLS), которые относятся ко всем существующим токенам. Это расширяет столбцы и строки матрицы \ (A \) на \ (g \) строк / столбцов.
Результаты
Слабое внимание позволяет механизму обрабатывать последовательности в 8 раз дольше. Можно использовать контрольную точку градиента для обработки последовательностей ›в 8 раз большей длины. Ниже приведены результаты выполнения задач НЛП. Результаты, относящиеся к геномике, не приводятся.
Предварительная подготовка и MLM
Задачи только для кодировщика
Ответ на вопрос
BigBird-ETC превосходит все остальные модели.
Классификация документов
Улучшает SotA на% 5 баллов.
Задачи кодировщика-декодера
Когда также используется предварительная подготовка Pegasus:
Первоначально опубликовано на https://atakanokan.com 24 августа 2020 г.