Сегментация изображений помогает нам понять содержание изображения и является очень важной темой в обработке изображений и компьютерном зрении. Он имеет множество приложений, таких как сжатие изображений, понимание сцены, определение местоположения объектов на спутниковых изображениях и т. Д. Со временем было разработано множество алгоритмов для сегментации изображений, но с появлением глубокого обучения в компьютерном зрении многие модели глубокого обучения для сегментации изображений стали тоже появился.

В этой статье я стремлюсь предоставить всесторонний обзор широкого спектра подходов к сегментации изображений с использованием методов глубокого обучения.

Модели сегментации изображений на основе DL

В этот обзор включены различные модели сегментации изображений на основе DL:

  1. Полностью сверточные сети
  2. Сверточные модели с графическими моделями
  3. Модели на основе кодировщика-декодера
  4. Модели на основе многомасштабных и пирамидальных сетей
  5. Модели на основе R-CNN (для сегментации экземпляров)
  6. Расширенные сверточные модели и семейство DeepLab
  7. Рекуррентные модели на основе нейронных сетей
  8. Модели, основанные на внимании
  9. Генеративные модели и состязательное обучение
  10. Модели CNN с моделями активного контура

Полностью сверточные сети

Полностью сверточная сеть (FCN) состоит только из сверточных слоев, в которых функции извлекаются путем свертки ядра / фильтра весов. Он берет любое изображение произвольного размера и создает карту сегментации того же размера. Он использует пропускаемые соединения, которые позволяют выполнять повышающую дискретизацию карт объектов из последних слоев и объединять их с картами объектов из более ранних слоев. Это помогает модели производить очень точную и детальную сегментацию, комбинируя семантическую информацию из глубоких и грубых слоев с информацией о внешнем виде из мелких и тонких слоев. Модель была протестирована на таких наборах данных, как PASCAL VOC, NYUDv2 и SIFT Flow, и достигла высочайшего уровня производительности сегментации.

Немногие заметные применения FCN - это сегментация радужной оболочки и опухоли головного мозга.

Сверточные модели с графическими моделями

Поскольку исследования показали, что глубокие CNN имеют плохие свойства локализации, что означает, что ответы на последних уровнях CNN недостаточно локализованы для обеспечения точной сегментации объекта, ответы на последнем уровне CNN были затем объединены в полностью связанное условное случайное поле (CRF). . Это обеспечило более высокую точность, чем предыдущие методы FCN.

Модели на основе кодировщика-декодера

Модели на основе кодировщика-декодера можно разделить на две категории:

А. Модели кодировщика-декодера для общей сегментации:

Он состоит из двух частей: кодировщика и декодера. Кодер использует сверточные слои, тогда как декодер использует деконволюционную сеть, которая генерирует карту попиксельных вероятностей классов на основе входного вектора признаков.

К популярным моделям в этой категории относятся SegNet и HRNet.

Б. Модели кодировщика-декодера для сегментации медицинских и биомедицинских изображений:

U-Net и V-Net - две самые популярные архитектуры, используемые для сегментации медицинских / биомедицинских изображений. U-Net в основном используется для сегментации изображений биологической микроскопии. Он использует методы увеличения данных, чтобы учиться на доступных аннотированных изображениях. Архитектура U-Net состоит из двух частей: сокращающейся части и симметричного расширяющегося пути для захвата контекста и обеспечения точной локализации соответственно.

V-Net - еще одна популярная модель, используемая для сегментации трехмерных медицинских изображений. Он использует новую целевую функцию для обучения модели, основанную на коэффициенте Дайса. Модель V-Net обучается на объемах МРТ и прогнозирует сегментацию сразу для всего объема МРТ.

Модели на основе многомасштабных сетей и пирамидальных сетей

Feature Pyramid Network (FPN) - самая популярная модель в этой категории. Первоначально он был разработан для обнаружения объектов, но позже использовался и для сегментации изображений. Он строит пирамиду функций и использует восходящий путь, нисходящий путь и боковые соединения для объединения функций с низким и высоким разрешением. Затем он использует свертку 3 × 3 на объединенных картах признаков для получения выходных данных каждого этапа. Наконец, каждый этап нисходящего пути генерирует прогноз для обнаружения объекта. Для сегментации изображения авторы используют два многослойных перцептрона (MLP) для создания масок.

Модели на основе R-CNN (для сегментации экземпляров)

Региональная сверточная сеть (RCN) - очень популярная модель, решающая проблему сегментации экземпляров. Он одновременно выполняет задачи обнаружения объектов и семантической сегментации. Его расширение Faster R-CNN использует региональную сеть предложений (RPN) для извлечения области интереса (RoI), а затем использует слой RoIPool для вычисления признаков из этих предложений и определяет координаты ограничивающей рамки и класс объекта.

Расширенные сверточные модели и семейство DeepLab

В моделях Dilated Convolutional к сверточным слоям добавляется дополнительный параметр, известный как скорость расширения, который определяет интервал между весами ядра. Они очень популярны для сегментации в реальном времени.

Среди семейства DeepLab DeepLab v1, DeepLab v2 и DeepLab v3 - самые современные модели для подходов к сегментации изображений, причем DeepLap v3 + является последней из них. DeepLab v2 имеет три ключевые особенности.

  • Использование расширенной свертки для решения проблемы уменьшения разрешения в сети (вызванного максимальным объединением и шагом).
  • Объединение пространственных пирамид Atrous (ASPP), которое исследует входящий сверточный векторный слой с помощью фильтров с несколькими частотами дискретизации, таким образом захватывая объекты, а также контекст изображения в нескольких масштабах, чтобы надежно сегментировать объекты в нескольких масштабах.
  • Улучшенная локализация границ объекта за счет комбинирования методов из глубоких CNN и вероятностных графических моделей.

Лучшая DeepLab (использующая ResNet-101 в качестве основы) достигла 70,4% mIoU в испытании Cityscapes.

Модели на основе рекуррентных нейронных сетей

Помимо CNN, RNN также оказались полезными при сегментации изображений. Они потенциально улучшают оценку карты сегментации, моделируя краткосрочные и долгосрочные зависимости между пикселями. ReSeg была первой моделью на основе RNN, использованной для сегментации изображений. Он был разработан ReNet, который использовался для классификации изображений. Модель ReSeg использует слои ReNet, которые накладываются поверх предварительно обученных сверточных слоев VGG-16, извлекающих общие локальные особенности для выполнения сегментации изображения. Чтобы восстановить исходное разрешение изображения в окончательных прогнозах, за слоями ReNet следуют слои с повышающей дискретизацией. Он использует Gated Recurrent Units (GRU), поскольку они обеспечивают хороший баланс между использованием памяти и вычислительной мощностью.

Позже появилась другая модель семантической сегментации, основанная на сети Graph LSTM (Graph Long Short-Term Memory), которая была обобщением LSTM от последовательных или многомерных данных до общих данных с графической структурой. При этом они принимают каждый суперпиксель произвольной формы как семантически непротиворечивый узел и адаптивно строят неориентированный граф для изображения, где пространственные отношения суперпикселей естественным образом используются в качестве границ.

Модели, основанные на внимании

Механизм внимания превосходит среднее и максимальное объединение и позволяет модели оценивать важность функций в разных положениях и масштабах. В отличие от моделей CNN, где сверточные классификаторы обучаются изучению репрезентативных семантических характеристик помеченных объектов, архитектура сети обратного внимания (RAN) обучает модель захватывать функции, не связанные с целевым классом. RAN - это сеть с тремя ветвями, которая одновременно выполняет процессы обучения с прямым и обратным вниманием.

Генеративные модели и состязательное обучение

С момента появления GAN они были очень популярны и также используются для задач сегментации изображений. При состязательном подходе к обучению сеть сверточной семантической сегментации обучается вместе с враждебной сетью, которая отличает достоверные карты сегментации от карт, созданных сетью сегментации. Этот подход показал повышенную точность на наборах данных Stanford Background и PASCAL VOC 2012.

Модели CNN с активными контурными моделями

FCN и активные контурные модели (ACM) недавно вызвали интерес, и это постоянное исследование. Один из его подходов включает в себя формулирование новых функций потерь, вдохновленных различными принципами ACM, где, как и в другом подходе, ACM используется просто как постпроцессор вывода FCN, и несколько попыток предприняли попытку скромного совместного обучения путем предварительного обучения FCN. Одним из его примеров является постпроцессор ACM для задачи семантической сегментации естественных изображений, где ACM с заданным уровнем реализованы как RNN.

Другие модели

Помимо моделей, рассмотренных выше, существует несколько других моделей на основе DL для сегментации изображений, таких как сеть кодирования контекста (EncNet), RefneNet, Seednet, Feedforward-Net и т. Д.

На следующей диаграмме показана временная шкала некоторых из самых популярных работ на основе DL для семантической сегментации, а также сегментации экземпляров с 2014 года.

Наборы данных сегментации изображений

Наборы данных Image Segmentation делятся на 3 категории: 2D-изображения, 2.5D-изображения RGB-D (цвет + глубина) и 3D-изображения. К наиболее популярным в каждой из этих категорий относятся:

  • 2D - PASCAL классы визуальных объектов (VOC), контекст PASCAL, общие объекты Microsoft в контексте (MS COCO), городские пейзажи
  • 2,5 D - NYU-D V2, SUN-3D, SUN RGB-D, UW RGB-D Object Dataset, ScanNet
  • 3D - Стэнфордский 2D-3D, ShapeNet Core, Sydney Urban Objects Dataset.

В следующей таблице показана точность различных моделей в наборе данных городских ландшафтов с использованием mIoU (среднее пересечение по объединению) в качестве метрики оценки.

Заключение

Мы обсудили различные современные модели сегментации изображений с использованием глубокого обучения. Мы также упомянули некоторые популярные наборы данных сегментации изображений и характеристики производительности различных моделей в наборе данных городских пейзажей. Глубокое обучение для сегментации изображений пока оказалось очень мощным, но поскольку большинство сетей сегментации требуют большого количества памяти для обучения и вывода, эти модели ограничены этим ограничением. Для решения этой проблемы продолжаются обширные исследования, и мы можем ожидать в ближайшие годы шквал инноваций и уникальных направлений исследований.

Ссылки