Мы хотим переднего плана !!! 🔥 🔥
Обзор: - 📑
- Что такое обнаружение заметных объектов?
- Вступление
- Основные используемые методы
- Бумажная техника
- Архитектура
- О тренировках
- Заключение
Что такое обнаружение заметных объектов? 🎃
Обнаружение заметных объектов (SOD) - это задача, основанная на механизме визуального внимания, в котором алгоритмы стремятся исследовать объекты или области более внимательно, чем окружающие области на сцене или изображений. 😃
Введение: - 📗
SOD не представлял интереса 😕 для исследователей DL по сравнению с распознаванием изображений или классификацией изображений, поэтому разработанные нейронные сети были больше ориентированы на распознавание изображений и классификацию изображений, а не на SOD. . Нейронные сети до сих пор разрабатывались с учетом проблем классификации изображений или распознавания изображений. Поэтому одна из проблем, с которыми они столкнулись исследователи в области SOD из-за использования моделей классификации изображений или распознавания изображений, таких как VGG, AlexNet, ResNet и т. Д., заключалась в том, что эти сети использовали дополнительные функции и были deep, из-за чего они извлекли много мелких деталей по сравнению с контекстной информацией.
Основные используемые методы: - 🔆
В методе многоуровневой глубокой интеграции функций мы берем фрагменты изображений и пытаемся извлечь контекстные функции, другой тип техники - извлечение многомасштабных функций как показано на картинке ниже
Он отказывается от использования патчей для извлечения контекстных функций, он использует схему пирамиды, то есть 😻
который также используется для объединения двух объектов, но эти методы немного сложнее, что будет объяснено далее в статье.
Техника бумаги: -
В статье используется метод многомасштабного извлечения признаков, который реализуется с нуля, без использования предварительно обученных моделей магистрали, которые использовались ранее, таких как VGG, AlexNet, ResNet и т. Д. 😲 Он построен Вдохновленный Inspired by U-Net, новый сетевой блок ReSidual U-block, RSU для захвата внутриэтапных многомасштабных функций. 🔥
Чтобы сохранить контекстную информацию и не уделять больше внимания мелким деталям, используется вышеупомянутая архитектура, в которой U-block извлекает контекстные функции.
Полученные функции подвергаются субдискретизации, так что контекстные функции сохраняются, и, в конце концов, на наш результат не влияют извлеченные мелкие детали изображения, например цвет, текстура и т. Д. После извлечения функций они кодируются и декодируются после повышающей дискретизации 🌝. Вычислений модели также очень мало (это можно увидеть на графике), поскольку в ней основное внимание уделяется функциям субдискретизации.
Архитектура: - 🌉
Полная архитектура модели содержит 6 кодеров, 5 декодеров и 1 модуль слияния карты значимости, который содержит сигмовидную функцию и 1 сверточный слой размерности 3 * 3.
О тренировках: - 🏃
Набор данных, используемый для обучения, является самым большим и наиболее часто используемым набором обучающих данных, то есть DUTS-TR 💯, а для оценки они использовали 6 часто используемых наборов данных DUT-OMRON, DUTS-TE, HKU-IS, ECSSD, PASCAL-S, SOD.
Точность измеряется с помощью следующих методов: -
1. Кривые точности-отзыва
2. Максимальная F-мера
3. Средняя абсолютная ошибка
4. Взвешенная F-мера
5. Структурная мера
6. Расслабленная F-мера границы.
Вывод: - 💻
Результаты кажутся очень удовлетворительными и довольно четкими, чем у других моделей обнаружения существенных объектов, которые, как показано на рисунке, но одна из неудовлетворительных вещей, которые я заметил с этой моделью, заключается в том, что она дает сбой 😿 когда кадры находятся в движении. Я хотел бы поблагодарить авторов этого исследования. Это ссылка на исследовательскую работу. Код можно найти, перейдя по ссылке. 😍 и, как всегда, меня можно найти в LinkedIn 😻 и на Github. ❤️