DETR, обнаружение объектов с трансформатором

TL; DR

Facebook AI Research (FAIR) опубликовал модель обнаружения объектов под названием DETR, в которой используется преобразователь кодер-декодер.
Он успешно удалил вручную разработанные компоненты, требующие предварительных знаний в предыдущих моделях обнаружения объектов.
Превосходит базовый уровень Faster R-CNN на наборе данных COCO. (Да, тот же Faster R-CNN опубликовал 2015 г.)
Доступны код и предварительно обученная модель: https://github.com/facebookresearch/detr

FAIR опубликовала первую модель обнаружения объектов под названием DETR (DEtection TRansformer), которая использует трансформатор как часть структуры обнаружения в мае 2020 года. Документ Сквозное обнаружение объектов с помощью трансформаторов можно найти здесь .

Для тех, кто не знаком с Transformer, ознакомьтесь с этой статьей:

Введение уровня самовнимания в Transformer
Как Google изменил определение слова« внимание после Чарли Пута medium.com»

Что хорошо

По сравнению с предыдущими современными моделями обнаружения объектов, DETR требует установки значительно меньшего количества гиперпараметров. DETR не требует установки количества якорных рамок, соотношения сторон, координат ограничивающих прямоугольников по умолчанию, даже порогового значения для не максимального подавления. DETR передает все эти задачи преобразователю кодера-декодера и двустороннему согласованию, а также создает более общие модели для разнообразного использования.

Архитектура

Архитектура DETR состоит из трех основных компонентов: магистраль CNN для извлечения компактного представления данных, преобразователь кодировщика-декодера, сети прямого распространения .

После извлечения функций CNN свертка 1x1 уменьшит размер канала конечных выходов CNN. Поскольку преобразователь инвариантен к перестановкам, фиксированное позиционное кодирование будет добавлено перед кодировщиком входного преобразователя.

Трансформаторный декодер отличается от оригинала. Для N входов он декодирует N выходов параллельно вместо декодирования одного элемента за раз. Окончательные прогнозы будут рассчитаны с помощью сети прямого распространения (FFN). FFN предсказывает координаты центра (нормализованные), высоту и ширину, а линейный слой предсказывает класс с помощью функции softmax.

Что нового

Помимо трансформаторной части в архитектуре, DETR также использует два основных компонента из предыдущих исследований.

Потеря совпадения при двухстороннем совпадении
Параллельное декодирование

Потеря совпадения при двухстороннем совпадении

В отличие от других моделей обнаружения объектов, маркирующих ограничивающие прямоугольники (или точки, как методы в объект как точки) путем сопоставления нескольких ограничивающих прямоугольников с одним наземным прямоугольником истинности, DETR использует двудольное сопоставление, которое является одним -vs-one соответствие.

Выполняя сопоставление один-к-одному, он может значительно снизить низкое качество прогнозов и добиться исключения сокращения вывода, такого как NMS.

Потеря двустороннего согласования разработана на основе венгерского алгоритма. Не будем вдаваться в подробности, пожалуйста, проверьте бумагу для получения дополнительной информации.

Параллельное декодирование

Как упоминалось выше, трансформаторный декодер декодирует N выходов параллельно вместо того, чтобы декодировать по одному элементу за раз.

Представление

Производительность DETR сравнивалась с Faster R-CNN в наборе данных COCO. Если честно, сравнение с SoTA, опубликованным много лет назад, кажется не совсем справедливым.

Тем не менее, это, несомненно, большой шаг в области обнаружения объектов. После публикации трансформера исследователи изрядно постарались разумно внедрить трансформер в модели компьютерного зрения. Но характеристики трансформатора не подходят для двухмерного (изображения) ввода. DETR достигает этого путем извлечения функций из CNN и преобразования окончательного вывода CNN в одномерные данные. Такая реализация трансформатора не только разумна, но и гениальна.

Почему важно?

Каждому из нас, кто пережил 2018 год, известно, насколько большое влияние оказала технология Nature Language Processing. Практически все предыдущие модели были заменены на трансформаторы и были лучше всех.

Хотя компьютерное зрение не похоже на поле для преобразователя, оно все же появляется и получило хорошие оценки. Более того, он решает некоторые проблемы, которые не может решить текущая модель обнаружения объектов.

История может повторяться. Лучше бы разобраться в этом раньше.

if you like(this_article):
    please(CLAPS)
    follow(LSC_PSD)
# Thanks :)