Изучение совместного представления изображения и текста, которое может использовать все

Мультимодальное обучение вездесуще в нашей жизни. Люди поглощают контент по-разному, будь то изображения (визуальные), текст, устные объяснения (аудио) и многие другие. Каждый из этих источников знаний известен как режим. Фактически, мы часто учимся, комбинируя эти способы, давая каждому уникальный опыт обучения. Эффект МакГурка - когда человек видит что-то говорящее (га-га), но слышит другой звук (ба-ба), заставляет наблюдателя воспринимать третий звук (да-да) - является ярким примером того, как разные модальности взаимодействуют с одним. Другая. Вдохновленные этим, исследователи машинного обучения также начали собирать наборы данных и задачи, которые требовали, чтобы модели понимали несколько режимов, чтобы добиться успеха.

Поскольку первые мультимодальные задачи были вдохновлены эффектом Мак-Гурка, многие из них включали только аудио и изображения. Со временем разновидности и количество способов выполнения задач становились все более разнообразными. Сегодня существуют задачи с использованием изображений и текста (Visual QA, Visual Commonsense Reasoning, Image-Text Retrieval) или изображений, звука и текста (Video Sentiment Analysis, CMU-MOSEI). Унимодальные задачи хорошо изучены, и из каждой модальности можно извлечь хорошие представления. Например, вложения слов, такие как GloVe и Word2Vec, можно использовать для создания вложений для текста, в то время как сверточные нейронные сети, такие как ResNet50 и VGG16, часто используются для извлечения функций из изображений. Возникает проблема составления и / или использования этих одномодальных функций для выполнения мультимодальных задач.

Составление этих функций ставит две основные задачи: как и когда их объединить. Baltrusaitis et al. определили 2 основных метода комбинирования одномодальных функций: совместные представления (с использованием нейронной сети или какой-либо другой архитектуры для объединения нескольких модальностей в одно и то же пространство представления) и скоординированные представления (с использованием некоторой меры, такой как косинусное расстояние или корреляция, чтобы приблизить одномодальные представления, пока они все еще остаются). в разных пространствах представления). Оба эти метода слияния также могут происходить в разных точках архитектуры модели: раннее слияние (объединение функций в начале и наличие полной архитектуры модели, работающей над комбинированными функциями) или позднее слияние (выполнение отдельных модальностей через их собственную архитектуру и объединение их в конце).

Многие современные модели сосредоточены на изучении хороших мультимодальных представлений, которые работают для их конкретных задач. В результате эти модели не могут быть обобщены для немного отличающегося использования одних и тех же модальностей. Однако создание модели для каждой задачи требует много времени и усилий. В этой работе модель UNITER Microsoft Dynamics 365 AI Research фокусируется на изучении обобщаемого совместного встраивания для изображений и текста.

UNITER использует самообучение на большом количестве данных, таких как BERT, чтобы гарантировать, что изученные вложения являются общими. Модель принимает пары изображение-текст и обучается примерно с 9,5 миллионами этих пар из 4 различных наборов данных.

Для каждой пары он сначала извлекает текстовые характеристики (путем объединения информации о положении слова с токенизированным предложением WordPiece) и характеристики области изображения (путем объединения функций Faster R-CNN с информацией о местоположении). После извлечения функций они проходят несколько уровней преобразователей, чтобы наконец изучить совместное встраивание,

При самостоятельном обучении встраиванию суставов используются 3 основные цели. Для этих задач входными данными являются (w, v), где v - это области входного изображения, а w - парный текст, а θ - обучаемые. параметры.

Моделирование маскированного языка (MLM)

MLM маскирует каждое слово входящего текста токеном [MASK] с вероятностью 15%. Цель состоит в том, чтобы предсказать замаскированные слова на основе остальной части предложения и парного изображения. Это делается путем минимизации вероятности отрицательного логарифма, как показано в уравнении ниже.

где wm - слова в маске, а w \ m - окружающие слова.

Соответствие текста изображения (ITM)

Для ITM дополнительный токен [CLS] добавляется к началу входного текста и, как и токен [CLS] BERT, который фиксирует контекст входного текста, он фиксирует объединенный контекст входного текста. пара изображение-текст. Затем этот жетон проходит через счетчик , чтобы измерить, насколько хорошо изображение и текст совпадают. Поскольку каждая входная пара может быть положительной или отрицательной, для оптимизации используется двоичная кросс-энтропийная потеря.

где y равно 0 для отрицательных пар и 1 для положительных пар.

Моделирование маскированной области (MRM)

MRM похож на MLM, за исключением того, что вместо замены региона токеном [MASK] он заполняется нулями. Однако особенности изображения являются непрерывными, что делает невозможным максимальное увеличение вероятности регистрации. Таким образом, для реализации MRM в документе предлагаются 3 различные целевые функции, которые вписываются в общее уравнение, приведенное ниже.

где vm - это замаскированные области изображения, а v \ m - окружающие области.

1. Регрессия признаков маскированной области (MRFR)

MRFR пытается сопоставить окончательное совместное представление каждой области маскированного изображения vm (i) с его предварительно обученными встраиваемыми изображениями, так что информация, переданная в модель, сохраняется.

где преобразует объединенное встраиваемое изображение в тот же размер, что и встраивание входного изображения.

2. Классификация маскированной области (MRC)

UNITER пытается идентифицировать vm (i) как тип объекта в MRC. Более быстрый R-CNN предсказывает вероятность того, что каждый регион является типом объекта с определенной вероятностью. Это используется как наземная метка истинности, и перекрестные энтропийные потери прогноза оптимизируются.

где K - количество классов объектов, предсказанных Faster R-CNN, gθ (vm (i)) преобразует область в длинный вектор K, а c (vm (i) ) - один из самых горячих векторов метки истинности.

3. Классификация маскированных областей с расхождением KL (MRC-kl)

MRC-kl совпадает с MRC, за исключением того, что прогнозируемые вероятности Faster R-CNN для каждого типа объекта используются вместо фиксированной метки (0 или 1). KL-расхождение используется вместо кросс-энтропии для сопоставления всех вероятностей, а не только основного класса истинности, как показано ниже.

где K - количество классов объектов, предсказанных Faster R-CNN, gθ (vm (i)) преобразует область в длинный вектор K, а c (vm (i) ) - это вероятности классов Faster R-CNN.

Команда попробовала несколько комбинаций этих задач предварительного обучения и обнаружила, что использование всех задач, кроме MRC, привело к наилучшему внедрению.

Лучшее встраивание UNITER было настроено для множества последующих задач, связанных с изображениями и текстом. Вот некоторые из этих задач: Визуальный контроль качества (ответ на вопрос об изображении), Визуальное вовлечение (определение того, влечет ли изображение за собой предложение) и Получение текста изображения (получить одно с учетом другого). Каждая из этих задач была протестирована на нескольких тестах, и UNITER смог достичь высочайшего уровня производительности на 13 различных тестах, действительно продемонстрировав универсальность встраивания UNITER.

Вот ссылка на нашу статью, если вы хотите получить более подробную информацию о UNITER, и нажмите здесь, чтобы увидеть больше наших публикаций и других работ.

Ссылки

  1. Тадас Балтрушайтис, Чайтанья Ахуджа, Луи-Филипп Моренси, Мультимодальное машинное обучение: обзор и таксономия (2018), транзакции IEEE по анализу образов и машинному интеллекту 41, вып. 2 с .: 423–443.
  2. Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, Jingjing Liu, UNITER: Learning Universal Представления Image-TExt (2019), препринт arXiv arXiv: 1909.11740.