Новый детектор с сквозной модуляцией, созданный командой Яна Лекуна, фиксирует визуальные концепции в тексте произвольной формы

Часто говорят, что «картинка лучше тысячи слов». Однако большинство детекторов объектов, используемых в современных мультимодальных системах понимания, могут идентифицировать только фиксированный словарь объектов и атрибутов во входном изображении. Эти независимо предварительно обученные детекторы объектов представляют собой черные ящики с возможностью восприятия, ограниченной обнаруженными объектами, а не всем изображением. Более того, такие системы ограничивают любое совместное обучение с другими модальностями, такими как контекст, что приводит к неспособности распознавать новые комбинации концепций, которые могут быть выражены в тексте произвольной формы.

Чтобы решить эти проблемы, исследовательская группа из Нью-Йоркского университета и Facebook предложила MDETR, детектор с непрерывной модуляцией, который идентифицирует объекты на изображении на основе необработанного текстового запроса и может захватывать длинный хвост визуальных концепций, выраженных в свободном доступе. -формировать текст.

Основываясь на системе обнаружения DETR, представленной Facebook в 2020 году, MDETR выполняет обнаружение возражений с пониманием естественного языка, обеспечивая сквозное мультимодальное рассуждение. Он полагается исключительно на текст и выровненные поля как форму наблюдения за концепциями в изображении и может обнаруживать нюансы концепций из текста произвольной формы.

Исследователи резюмируют вклад своего исследования следующим образом:

Представьте сквозную систему обнаружения с текстовой модуляцией, основанную на детекторе DETR.
Продемонстрировать, что модулированный подход обнаружения можно беспрепятственно применять для решения таких задач, как обоснование фраз и понимание понимания выражений, устанавливая новые современные характеристики для обеих этих задач с использованием наборов данных, содержащих как синтетические, так и реальные изображения.
Покажите, что хорошая производительность модулированного обнаружения естественным образом влияет на производительность последующих задач, например, достижение конкурентоспособной производительности при визуальных ответах на вопросы, сегментации относящихся выражений и обнаружении объектов с длинным хвостом за несколько выстрелов.

В архитектуре MDETR изображения кодируются с помощью сверточной магистрали, а тексты кодируются с помощью предварительно обученной языковой модели преобразователя, такой как RoBERTa. Имея под рукой визуальные и текстовые функции, зависящая от модальности линейная проекция затем проецируется на общее пространство для встраивания. Результирующие векторы признаков объединяются и передаются в кодировщик-декодер-преобразователь, который предсказывает ограничивающие рамки представленных объектов и соответствующий текст.

Исследователи провели эксперименты с набором данных CLEVR, чтобы оценить эффективность MDETR. В их установке использовалась модель ResNet-18, предварительно обученная на ImageNet в качестве сверточной магистрали, предварительно обученная DistilRoberta в качестве кодировщика текста и конечный преобразователь, такой же, как у DETR.

В режиме нулевого выстрела способность MDETR к обобщению продемонстрировала существенное улучшение по сравнению с лучшей конкурирующей моделью. Примечательно, что точность MDETR в наборе данных CLEVR-REF + достигла 100 процентов, что значительно превосходит другие подходы.

Исследователи также оценили предложенную модель по четырем последующим задачам - пониманию выражений и сегментации, визуальным ответам на вопросы и обоснованию фраз - где они достигли самых современных результатов на популярных тестах.

Результаты подтверждают высокую эффективность предлагаемого подхода при решении задач мультимодального понимания, а также его потенциал в последующих приложениях. Исследователи полагают, что эта работа может внести свой вклад в разработку полностью интегрированных мультимодальных архитектур, которые не полагаются на детекторы объектов черного ящика.

Статья MDETR - Модулированное обнаружение для сквозного многомодального понимания находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

Новый детектор с сквозной модуляцией, созданный командой Яна Лекуна, фиксирует визуальные концепции в тексте произвольной формы

Вопросы по теме