Сеть разбора сцены пирамиды: модуль объединения пирамид

На этот раз рассматривается PSPNet (сеть анализа сцены пирамиды) от CUHK и SenseTime.

  • Семантическая сегментация позволяет узнать название категории каждого пикселя только для известных объектов.
  • Анализ сцены, основанный на семантической сегментации, позволяет узнать название категории ВСЕХ пикселей в изображении.

Используя модуль Pyramid Pooling Module с агрегированным контекстом на основе различных регионов, PSPNet превосходит современные подходы, такие как FCN, DeepLab и DilatedNet. И наконец PSPNet:

  • стал чемпионом ImageNet Scene Parsing Challenge 2016
  • На тот момент занял 1-е место в наборах данных PASCAL VOC 2012 и Cityscapes

И он опубликован в CVPR за 2017 год с более чем 600 цитированием. (Сик-Хо Цанг @ средний)

Что покрывается

  1. Потребность в глобальной информации
  2. Модуль объединения пирамид
  3. Некоторые подробности
  4. Исследование абляции
  5. Сравнение с современными подходами

1. Потребность в глобальной информации

  • Несоответствие отношений: FCN предсказывает лодку в желтом квадрате как машину на основе ее внешнего вида. Но общеизвестно, что автомобиль редко пересекает реку.
  • Категории смешения: FCN предсказывает объект в коробке как часть небоскреба и часть здания. Эти результаты следует исключить, чтобы весь объект был либо небоскребом, либо зданием, но не тем и другим сразу.
  • Незаметные классы. Подушка выглядит так же, как простыня. Просмотр категории глобальной сцены может не разобрать подушку.

Следовательно, нам нужна некоторая глобальная информация об изображении.

2. Модуль объединения пирамид

(а) и (б)

В точке (а) у нас есть входное изображение. В (b) ResNet используется со стратегией расширенной сети (DeepLab / DilatedNet) для извлечения функций. Расширенная свертка следует за DeepLab. Размер карты функций составляет 1/8 входного изображения.

(c) .1. Среднее объединение субрегионов

В пункте (c) выполняется объединение средних значений субрегионов для каждой карты функций.

  • Красный: это самый грубый уровень, на котором выполняется объединение глобального среднего по каждой карте функций для создания одного выходного бина.
  • Оранжевый: это второй уровень, который делит карту функций на 2 × 2 подобласти, а затем выполняет объединение средних значений для каждого подобласти.
  • Синий: это третий уровень, который делит карту функций на 3 × 3 подобласти, а затем выполняет объединение средних значений для каждого подобласти.
  • Зеленый: это лучший уровень, на котором карта функций делится на 6 × 6 субрегионов, а затем выполняется объединение для каждого субрегиона.

(c) .2. Свертка 1 × 1 для уменьшения размера

Затем выполняется свертка 1 × 1 для каждой объединенной карты признаков, чтобы уменьшить контекстное представление до 1 / N исходного (черный), если размер уровня пирамиды N.

  • В этом примере N = 4, потому что всего 4 уровня (красный, оранжевый, синий и зеленый).
  • Если количество входных карт характеристик равно 2048, то выходная карта характеристик будет (1/4) × 2048 = 512, т.е. 512 выходных карт характеристик.

(c) .3. Билинейная интерполяция для повышения дискретизации

Выполняется билинейная интерполяция для повышения дискретизации каждой карты пространственных объектов с низкой размерностью до того же размера, что и исходная карта объектов (черная).

(c) .4. Конкатенация для агрегирования контекста

Все разные уровни карт объектов с повышенной дискретизацией объединяются с исходной картой объектов (черная). Эти карты функций объединены как глобальные предыдущие. Это конец модуля пула пирамиды на (c).

(d)

Наконец, за ним следует сверточный слой для генерации окончательной карты прогнозирования в (d).

Идея объединения среднего субрегиона в действительности очень похожа на объединение пространственных пирамид в SPPNet. Свертка 1 × 1 и затем конкатенация очень похожа на свертку по глубине в Depthwise Separable Convolution, используемую Xception или MobileNetV1, за исключением того, что используется билинейная интерполяция, чтобы уравнять размеры всех карт функций.

3. Некоторые подробности о тренировке

  • Вспомогательная потеря используется во время тренировки. К дополнительным потерям добавляется вес α, равный 0,4, чтобы уравновесить окончательные и вспомогательные потери. Во время тестирования исключаются вспомогательные потери. Это своего рода стратегия обучения с глубоким контролем для обучения очень глубокой сети. Эта идея аналогична вспомогательному классификатору в GoogLeNet / Inception-v1.
  • Вместо базового используется «поли» обучение.

4. Исследование абляции

Набор данных ADE2K - это набор данных в ImageNet Scene Parsing Challenge 2016. Это более сложный набор данных, содержащий до 150 классов, 1038 меток уровня изображения. И есть изображения 20K / 2K / 3K для обучения / проверки / тестирования.

Набор для валидации используется для исследования абляции.

4.1. Максимальное (MAX) и среднее (AVE) объединение в пул и уменьшение размера (DR)

  • ResNet50-Baseline: FCN на основе ResNet50 с расширенной сетью.
  • "B1" и "B1236": объединенные карты функций с размерами ячеек {1 × 1} и {1 × 1, 2 × 2, 3 × 3, 6 × 6. } соответственно.
  • «MAX» и «AVE»: максимальное количество операций объединения и среднее количество операций объединения отдельно.
  • DR’: уменьшение размера.

Средний пул стабильно дает лучшие результаты. И использовать DR лучше, чем без DR.

4.2. Вспомогательная потеря (AL)

α = 0,4 дает лучшую производительность. Таким образом, используется α = 0,4.

4.3. Различные числа глубины и многомасштабное (MS) тестирование

Как известно, более глубокая модель дает лучшие результаты. А многомасштабное тестирование помогает улучшить результаты.

4.4. Увеличение данных (DA) и сравнение с другими

  • ResNet269 + DA + AL + PSP: для одномасштабного тестирования, когда все компоненты объединены вместе, он значительно превосходит современные подходы.
  • ResNet269 + DA + AL + PSP + MS: при многомасштабном тестировании он дает еще лучшие результаты.
  • Некоторые примеры показаны ниже:

5. Сравнение с современными подходами

5.1. ADE2K - Конкурс по синтаксическому анализу сцены ImageNet 2016

  • PSPNet выиграла конкурс ImageNet Scene Parsing Challenge 2016.

5.2. ПАСКАЛЬ ЛОС 2012

В DA есть 10582/1449/1456 изображений для обучения / проверки / тестирования.

  • «+» Означает также предварительное обучение с помощью набора данных MS COCO.
  • Опять же, PSPNet превосходит все современные подходы, такие как FCN, DeconvNet, DeepLab и Dilation8.
  • Некоторые примеры показаны ниже:

5.3. Городские пейзажи

Он содержит 5000 высококачественных изображений с мелкими комментариями на уровне пикселей, собранных из 50 городов в разное время года. Есть 2975/500/1525 для обучения / проверки / тестирования. Он определяет 19 категорий, содержащих как вещи, так и объекты. Кроме того, 20000 изображений с грубыми аннотациями предоставляются для двух настроек сравнения, то есть обучения только с точными данными или с точными и грубыми данными. Тренировка с обоими отмечена знаком «++».

  • Обучение с использованием только точных данных или обучение как с точными, так и с грубыми данными, PSPNet также дает лучший результат.
  • Некоторые примеры показаны ниже:

  • Авторы также загрузили видео для набора данных Cityscapes, что очень впечатляет:
  • Еще два видео-примера:

Https://www.youtube.com/watch?v=gdAVqJn_J2M

Https://www.youtube.com/watch?v=HYghTzmbv6Q

С модулем Pyramid Pooling получается глобальная информация об изображении и улучшаются результаты.

Ссылка

[2017 CVPR] [PSPNet]
Сеть анализа сцены пирамиды

Мои связанные обзоры по классификации изображений

[LeNet] [AlexNet] [ZFNet] [VGGNet] [SPPNet] [PReLU-Net] [DeepImage] [GoogLeNet / Inception-v1] [BN- Inception / Inception-v2 ] [ Inception-v3 ] [ Inception-v4 ] [ Xception ] [ MobileNetV1 ] [ ResNet ] [ Pre-Activation ResNet ] [ RiR ] [ RoR] [Stochastic Depth] [WRN] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet]

Мои обзоры по семантической сегментации

[FCN] [DeconvNet] [DeepLabv1 и DeepLabv2] [ParseNet] [DilatedNet]

Мои обзоры по биомедицинской сегментации изображений

[CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-FCN]