Концептуальный обзор

Совместная мультимодальность: VL-BERT, LayoutLMv2, VisualBERT, MMBT]. В этом типе архитектуры изображение и текст объединяются в одну длинную последовательность, что затрудняет самостоятельную работу трансформеров из-за кросс- корреляция признаков модальности, упомянутая во введении.

Двухпоточный мультимодальный: CLIP, VilBERT: Плюсом является то, что каждая модальность является отдельной ветвью, что позволяет использовать произвольную модель для каждой ветви. Однако текст и изображение взаимодействуют только в конце, что не идеально. Возможно, лучше сделать раннее слияние.

Мультимодальность с одним потоком. Функции зрения также рассматриваются как маркеры (так же, как язык) и добавляются к ним с другими функциями. Объединение визуальных признаков с языковыми токенами таким образом (простое сложение) неестественно, поскольку зрение и языковые признаки — это разные типы данных.

Discrete MultiModal: DocFormer объединяет визуальные, текстовые и пространственные функции. т. е. пространственные и визуальные характеристики передаются в виде остаточных соединений каждому слою преобразователя. В каждом трансформирующем слое визуальные и языковые функции отдельно подвергаются само-вниманию с общими пространственными функциями.

Архитектура модели

DocFormer представляет собой архитектуру преобразования только для кодировщика. Он также имеет основу CNN для извлечения визуальных признаков. Все компоненты проходят сквозное обучение. DocFormer обеспечивает глубокое мультимодальное взаимодействие в слоях преобразователя, используя новое мультимодальное внимание к себе.

Визуальные характеристики. Пусть v ∈ R 3×h×w — изображение документа, которое мы пропускаем через сверточную нейронную сеть ResNet50 fcnn(θ, v). Мы извлекаем визуальное вложение с более низким разрешением на уровне 4, т.е. vl4 ∈ R c×hl×wl . Типичными значениями на этом этапе являются c = 2048 и hl = h/32, wl = w/32.

Кодер преобразователя ожидает сглаженную последовательность в качестве входных данных размерности d. Итак, мы сначала применяем свертку 1 × 1, чтобы уменьшить каналы c до d. Затем мы сглаживаем функции ResNet до (d, hl × wl) и используем слой линейного преобразования для дальнейшего преобразования его в (d, N), где d = 768, N = 512. Поэтому мы представляем визуальное вложение как V = linear (conv1×1(fcnn(θ, v))).

Функции языка: сначала мы размечаем текст t с помощью токенизатора слов [55], чтобы получить ttok, затем он проходит через обучаемый слой встраивания Wt.

Мы гарантируем, что вложение текста T = Wt(ttok) имеет ту же форму, что и визуальное вложение V . Мы инициализируем Wt предварительно обученными весами LayoutLMv1.

Пространственные характеристики. Для каждого слова k в тексте мы также получаем координаты ограничивающей рамки bk = (x1, y1, x2, y2, x3, y3, x4, y4). Для каждого слова мы кодируем верхнюю левую и нижнюю правую координаты, используя отдельные слои Wx и Wy для координат x и y соответственно.

Мы также кодируем дополнительные пространственные характеристики: высоту ограничивающей рамки h, ширину w, евклидово расстояние от каждого угла ограничивающей рамки до соответствующего угла в ограничивающей рамке справа от нее и расстояние между центроидами ограничивающих рамок, например. Aотн = {Ak+1 число-Ak число}; А ∈ (х, у); num ∈ (1, 2, 3, 4, c), где c — центр ограничивающей рамки. Поскольку слои преобразователя инвариантны к перестановкам, мы также используем абсолютные одномерные позиционные кодировки Pabs.

Мы создаем отдельные пространственные вложения для визуальных V и языковых Ts, поскольку пространственная зависимость может быть специфичной для модальности. Окончательные пространственные вложения получаются суммированием всех промежуточных вложений. Все пространственные вложения поддаются обучению.

Многомодальный уровень самоконтроля:

Преобразователь выводит мультимодальное представление объекта M той же формы d = 768, N = 512, что и каждый из входных объектов.

т. е. в слое трансформатора l и i-й входной токен в длине объекта L

где

Без ограничения общности удалим зависимость от слоя l и получим упрощенное представление уравнения. 2 как:

Мы модифицируем эту формулировку внимания для мультимодальной задачи VDU. DocFormer пытается внедрить следующую индуктивную предвзятость в формулировку само-внимания: для большинства задач с УВО локальные особенности более важны, чем глобальные.

Используя визуальное само-внимание, вычисленное с помощью уравнения. 4 в уравнении 1, дает нам пространственное сознание, самостоятельные зрительные функции Vˆ l . Точно так же, используя уравнение 5 в уравнении 1, дает нам языковые особенности Tˆ l . Выход мультимодального признака определяется выражением Ml = Vˆl + T^l.

Предварительная подготовка

Многомодальное моделирование маскированного языка (MMMLMM): это модификация исходного моделирования маскированного языка. то есть для текстовой последовательности t генерируется искаженная последовательность et. Кодер преобразователя предсказывает tˆ и обучается с целью восстановить всю последовательность.

Мы намеренно не маскируем визуальные области, соответствующие тексту [MASK]. Это сделано для того, чтобы визуальные функции дополняли текстовые функции и, таким образом, сводили к минимуму потери при реконструкции текста.

Научитесь реконструировать (LTR). Эта задача аналогична реконструкции изображения с помощью автоматического кодировщика, но с мультимодальными функциями. Интуиция подсказывает, что при наличии как изображения, так и текста реконструкция изображения потребует взаимодействия обоих модальностей.

Текст описывает изображение (TDI):. В этой задаче мы пытаемся научить сеть, описывает ли данный фрагмент текста изображение документа. Для этого мы объединяем мультимодальные функции, используя линейный слой для прогнозирования бинарного ответа. В пакете в 80 % случаев правильный текст и изображение сочетаются друг с другом, а в оставшихся 20 % неверное изображение сочетается с текстом.

Тонкая настройка

  • Понимание формы и квитанции: набор данных FUNSD, Kleister-NDA и CORD
  • Классификация изображений документов: набор данных RVL-CDIP

Бумага

DocFormer: сквозной преобразователь для понимания документов 2106.11539

Просмотреть все темы этой серии здесь