U2-Net: углубление с вложенной U-структурой для обнаружения заметных объектов Резюме исследования

Мы хотим переднего плана !!! 🔥 🔥

Обзор: - 📑

Что такое обнаружение заметных объектов?
Вступление
Основные используемые методы
Бумажная техника
Архитектура
О тренировках
Заключение

Что такое обнаружение заметных объектов? 🎃

Обнаружение заметных объектов (SOD) - это задача, основанная на механизме визуального внимания, в котором алгоритмы стремятся исследовать объекты или области более внимательно, чем окружающие области на сцене или изображений. 😃

Введение: - 📗

SOD не представлял интереса 😕 для исследователей DL по сравнению с распознаванием изображений или классификацией изображений, поэтому разработанные нейронные сети были больше ориентированы на распознавание изображений и классификацию изображений, а не на SOD. . Нейронные сети до сих пор разрабатывались с учетом проблем классификации изображений или распознавания изображений. Поэтому одна из проблем, с которыми они столкнулись исследователи в области SOD из-за использования моделей классификации изображений или распознавания изображений, таких как VGG, AlexNet, ResNet и т. Д., заключалась в том, что эти сети использовали дополнительные функции и были deep, из-за чего они извлекли много мелких деталей по сравнению с контекстной информацией.

Основные используемые методы: - 🔆

В методе многоуровневой глубокой интеграции функций мы берем фрагменты изображений и пытаемся извлечь контекстные функции, другой тип техники - извлечение многомасштабных функций как показано на картинке ниже

Он отказывается от использования патчей для извлечения контекстных функций, он использует схему пирамиды, то есть 😻

который также используется для объединения двух объектов, но эти методы немного сложнее, что будет объяснено далее в статье.

Техника бумаги: -

В статье используется метод многомасштабного извлечения признаков, который реализуется с нуля, без использования предварительно обученных моделей магистрали, которые использовались ранее, таких как VGG, AlexNet, ResNet и т. Д. 😲 Он построен Вдохновленный Inspired by U-Net, новый сетевой блок ReSidual U-block, RSU для захвата внутриэтапных многомасштабных функций. 🔥

Чтобы сохранить контекстную информацию и не уделять больше внимания мелким деталям, используется вышеупомянутая архитектура, в которой U-block извлекает контекстные функции.

Полученные функции подвергаются субдискретизации, так что контекстные функции сохраняются, и, в конце концов, на наш результат не влияют извлеченные мелкие детали изображения, например цвет, текстура и т. Д. После извлечения функций они кодируются и декодируются после повышающей дискретизации 🌝. Вычислений модели также очень мало (это можно увидеть на графике), поскольку в ней основное внимание уделяется функциям субдискретизации.

Архитектура: - 🌉

Полная архитектура модели содержит 6 кодеров, 5 декодеров и 1 модуль слияния карты значимости, который содержит сигмовидную функцию и 1 сверточный слой размерности 3 * 3.

О тренировках: - 🏃

Набор данных, используемый для обучения, является самым большим и наиболее часто используемым набором обучающих данных, то есть DUTS-TR 💯, а для оценки они использовали 6 часто используемых наборов данных DUT-OMRON, DUTS-TE, HKU-IS, ECSSD, PASCAL-S, SOD.

Точность измеряется с помощью следующих методов: -
1. Кривые точности-отзыва
2. Максимальная F-мера
3. Средняя абсолютная ошибка
4. Взвешенная F-мера
5. Структурная мера
6. Расслабленная F-мера границы.

Вывод: - 💻

Результаты кажутся очень удовлетворительными и довольно четкими, чем у других моделей обнаружения существенных объектов, которые, как показано на рисунке, но одна из неудовлетворительных вещей, которые я заметил с этой моделью, заключается в том, что она дает сбой 😿 когда кадры находятся в движении. Я хотел бы поблагодарить авторов этого исследования. Это ссылка на исследовательскую работу. Код можно найти, перейдя по ссылке. 😍 и, как всегда, меня можно найти в LinkedIn 😻 и на Github. ❤️