Изучение совместного представления изображения и текста, которое может использовать все
Мультимодальное обучение вездесуще в нашей жизни. Люди поглощают контент по-разному, будь то изображения (визуальные), текст, устные объяснения (аудио) и многие другие. Каждый из этих источников знаний известен как режим. Фактически, мы часто учимся, комбинируя эти способы, давая каждому уникальный опыт обучения. Эффект МакГурка - когда человек видит что-то говорящее (га-га), но слышит другой звук (ба-ба), заставляет наблюдателя воспринимать третий звук (да-да) - является ярким примером того, как разные модальности взаимодействуют с одним. Другая. Вдохновленные этим, исследователи машинного обучения также начали собирать наборы данных и задачи, которые требовали, чтобы модели понимали несколько режимов, чтобы добиться успеха.
Поскольку первые мультимодальные задачи были вдохновлены эффектом Мак-Гурка, многие из них включали только аудио и изображения. Со временем разновидности и количество способов выполнения задач становились все более разнообразными. Сегодня существуют задачи с использованием изображений и текста (Visual QA, Visual Commonsense Reasoning, Image-Text Retrieval) или изображений, звука и текста (Video Sentiment Analysis, CMU-MOSEI). Унимодальные задачи хорошо изучены, и из каждой модальности можно извлечь хорошие представления. Например, вложения слов, такие как GloVe и Word2Vec, можно использовать для создания вложений для текста, в то время как сверточные нейронные сети, такие как ResNet50 и VGG16, часто используются для извлечения функций из изображений. Возникает проблема составления и / или использования этих одномодальных функций для выполнения мультимодальных задач.
Составление этих функций ставит две основные задачи: как и когда их объединить. Baltrusaitis et al. определили 2 основных метода комбинирования одномодальных функций: совместные представления (с использованием нейронной сети или какой-либо другой архитектуры для объединения нескольких модальностей в одно и то же пространство представления) и скоординированные представления (с использованием некоторой меры, такой как косинусное расстояние или корреляция, чтобы приблизить одномодальные представления, пока они все еще остаются). в разных пространствах представления). Оба эти метода слияния также могут происходить в разных точках архитектуры модели: раннее слияние (объединение функций в начале и наличие полной архитектуры модели, работающей над комбинированными функциями) или позднее слияние (выполнение отдельных модальностей через их собственную архитектуру и объединение их в конце).
Многие современные модели сосредоточены на изучении хороших мультимодальных представлений, которые работают для их конкретных задач. В результате эти модели не могут быть обобщены для немного отличающегося использования одних и тех же модальностей. Однако создание модели для каждой задачи требует много времени и усилий. В этой работе модель UNITER Microsoft Dynamics 365 AI Research фокусируется на изучении обобщаемого совместного встраивания для изображений и текста.
UNITER использует самообучение на большом количестве данных, таких как BERT, чтобы гарантировать, что изученные вложения являются общими. Модель принимает пары изображение-текст и обучается примерно с 9,5 миллионами этих пар из 4 различных наборов данных.
Для каждой пары он сначала извлекает текстовые характеристики (путем объединения информации о положении слова с токенизированным предложением WordPiece) и характеристики области изображения (путем объединения функций Faster R-CNN с информацией о местоположении). После извлечения функций они проходят несколько уровней преобразователей, чтобы наконец изучить совместное встраивание,
При самостоятельном обучении встраиванию суставов используются 3 основные цели. Для этих задач входными данными являются (w, v), где v - это области входного изображения, а w - парный текст, а θ - обучаемые. параметры.
Моделирование маскированного языка (MLM)
MLM маскирует каждое слово входящего текста токеном [MASK] с вероятностью 15%. Цель состоит в том, чтобы предсказать замаскированные слова на основе остальной части предложения и парного изображения. Это делается путем минимизации вероятности отрицательного логарифма, как показано в уравнении ниже.
где wm - слова в маске, а w \ m - окружающие слова.
Соответствие текста изображения (ITM)
Для ITM дополнительный токен [CLS] добавляется к началу входного текста и, как и токен [CLS] BERT, который фиксирует контекст входного текста, он фиксирует объединенный контекст входного текста. пара изображение-текст. Затем этот жетон проходит через счетчик sθ, чтобы измерить, насколько хорошо изображение и текст совпадают. Поскольку каждая входная пара может быть положительной или отрицательной, для оптимизации используется двоичная кросс-энтропийная потеря.
где y равно 0 для отрицательных пар и 1 для положительных пар.
Моделирование маскированной области (MRM)
MRM похож на MLM, за исключением того, что вместо замены региона токеном [MASK] он заполняется нулями. Однако особенности изображения являются непрерывными, что делает невозможным максимальное увеличение вероятности регистрации. Таким образом, для реализации MRM в документе предлагаются 3 различные целевые функции, которые вписываются в общее уравнение, приведенное ниже.
где vm - это замаскированные области изображения, а v \ m - окружающие области.
1. Регрессия признаков маскированной области (MRFR)
MRFR пытается сопоставить окончательное совместное представление каждой области маскированного изображения vm (i) с его предварительно обученными встраиваемыми изображениями, так что информация, переданная в модель, сохраняется.
где hθ преобразует объединенное встраиваемое изображение в тот же размер, что и встраивание входного изображения.
2. Классификация маскированной области (MRC)
UNITER пытается идентифицировать vm (i) как тип объекта в MRC. Более быстрый R-CNN предсказывает вероятность того, что каждый регион является типом объекта с определенной вероятностью. Это используется как наземная метка истинности, и перекрестные энтропийные потери прогноза оптимизируются.
где K - количество классов объектов, предсказанных Faster R-CNN, gθ (vm (i)) преобразует область в длинный вектор K, а c (vm (i) ) - один из самых горячих векторов метки истинности.
3. Классификация маскированных областей с расхождением KL (MRC-kl)
MRC-kl совпадает с MRC, за исключением того, что прогнозируемые вероятности Faster R-CNN для каждого типа объекта используются вместо фиксированной метки (0 или 1). KL-расхождение используется вместо кросс-энтропии для сопоставления всех вероятностей, а не только основного класса истинности, как показано ниже.
где K - количество классов объектов, предсказанных Faster R-CNN, gθ (vm (i)) преобразует область в длинный вектор K, а c (vm (i) ) - это вероятности классов Faster R-CNN.
Команда попробовала несколько комбинаций этих задач предварительного обучения и обнаружила, что использование всех задач, кроме MRC, привело к наилучшему внедрению.
Лучшее встраивание UNITER было настроено для множества последующих задач, связанных с изображениями и текстом. Вот некоторые из этих задач: Визуальный контроль качества (ответ на вопрос об изображении), Визуальное вовлечение (определение того, влечет ли изображение за собой предложение) и Получение текста изображения (получить одно с учетом другого). Каждая из этих задач была протестирована на нескольких тестах, и UNITER смог достичь высочайшего уровня производительности на 13 различных тестах, действительно продемонстрировав универсальность встраивания UNITER.
Вот ссылка на нашу статью, если вы хотите получить более подробную информацию о UNITER, и нажмите здесь, чтобы увидеть больше наших публикаций и других работ.
Ссылки
- Тадас Балтрушайтис, Чайтанья Ахуджа, Луи-Филипп Моренси, Мультимодальное машинное обучение: обзор и таксономия (2018), транзакции IEEE по анализу образов и машинному интеллекту 41, вып. 2 с .: 423–443.
- Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, Jingjing Liu, UNITER: Learning Universal Представления Image-TExt (2019), препринт arXiv arXiv: 1909.11740.