Обзор: PSPNet - победитель в ILSVRC 2016 (семантическая сегментация / анализ сцены)

Сеть разбора сцены пирамиды: модуль объединения пирамид

На этот раз рассматривается PSPNet (сеть анализа сцены пирамиды) от CUHK и SenseTime.

Семантическая сегментация позволяет узнать название категории каждого пикселя только для известных объектов.
Анализ сцены, основанный на семантической сегментации, позволяет узнать название категории ВСЕХ пикселей в изображении.

Используя модуль Pyramid Pooling Module с агрегированным контекстом на основе различных регионов, PSPNet превосходит современные подходы, такие как FCN, DeepLab и DilatedNet. И наконец PSPNet:

стал чемпионом ImageNet Scene Parsing Challenge 2016
На тот момент занял 1-е место в наборах данных PASCAL VOC 2012 и Cityscapes

И он опубликован в CVPR за 2017 год с более чем 600 цитированием. (Сик-Хо Цанг @ средний)

Что покрывается

Потребность в глобальной информации
Модуль объединения пирамид
Некоторые подробности
Исследование абляции
Сравнение с современными подходами

1. Потребность в глобальной информации

Несоответствие отношений: FCN предсказывает лодку в желтом квадрате как машину на основе ее внешнего вида. Но общеизвестно, что автомобиль редко пересекает реку.
Категории смешения: FCN предсказывает объект в коробке как часть небоскреба и часть здания. Эти результаты следует исключить, чтобы весь объект был либо небоскребом, либо зданием, но не тем и другим сразу.
Незаметные классы. Подушка выглядит так же, как простыня. Просмотр категории глобальной сцены может не разобрать подушку.

Следовательно, нам нужна некоторая глобальная информация об изображении.

2. Модуль объединения пирамид

(а) и (б)

В точке (а) у нас есть входное изображение. В (b) ResNet используется со стратегией расширенной сети (DeepLab / DilatedNet) для извлечения функций. Расширенная свертка следует за DeepLab. Размер карты функций составляет 1/8 входного изображения.

(c) .1. Среднее объединение субрегионов

В пункте (c) выполняется объединение средних значений субрегионов для каждой карты функций.

Красный: это самый грубый уровень, на котором выполняется объединение глобального среднего по каждой карте функций для создания одного выходного бина.
Оранжевый: это второй уровень, который делит карту функций на 2 × 2 подобласти, а затем выполняет объединение средних значений для каждого подобласти.
Синий: это третий уровень, который делит карту функций на 3 × 3 подобласти, а затем выполняет объединение средних значений для каждого подобласти.
Зеленый: это лучший уровень, на котором карта функций делится на 6 × 6 субрегионов, а затем выполняется объединение для каждого субрегиона.

(c) .2. Свертка 1 × 1 для уменьшения размера

Затем выполняется свертка 1 × 1 для каждой объединенной карты признаков, чтобы уменьшить контекстное представление до 1 / N исходного (черный), если размер уровня пирамиды N.

В этом примере N = 4, потому что всего 4 уровня (красный, оранжевый, синий и зеленый).
Если количество входных карт характеристик равно 2048, то выходная карта характеристик будет (1/4) × 2048 = 512, т.е. 512 выходных карт характеристик.

(c) .3. Билинейная интерполяция для повышения дискретизации

Выполняется билинейная интерполяция для повышения дискретизации каждой карты пространственных объектов с низкой размерностью до того же размера, что и исходная карта объектов (черная).

(c) .4. Конкатенация для агрегирования контекста

Все разные уровни карт объектов с повышенной дискретизацией объединяются с исходной картой объектов (черная). Эти карты функций объединены как глобальные предыдущие. Это конец модуля пула пирамиды на (c).

(d)

Наконец, за ним следует сверточный слой для генерации окончательной карты прогнозирования в (d).

Идея объединения среднего субрегиона в действительности очень похожа на объединение пространственных пирамид в SPPNet. Свертка 1 × 1 и затем конкатенация очень похожа на свертку по глубине в Depthwise Separable Convolution, используемую Xception или MobileNetV1, за исключением того, что используется билинейная интерполяция, чтобы уравнять размеры всех карт функций.

3. Некоторые подробности о тренировке

Вспомогательная потеря используется во время тренировки. К дополнительным потерям добавляется вес α, равный 0,4, чтобы уравновесить окончательные и вспомогательные потери. Во время тестирования исключаются вспомогательные потери. Это своего рода стратегия обучения с глубоким контролем для обучения очень глубокой сети. Эта идея аналогична вспомогательному классификатору в GoogLeNet / Inception-v1.
Вместо базового используется «поли» обучение.

4. Исследование абляции

Набор данных ADE2K - это набор данных в ImageNet Scene Parsing Challenge 2016. Это более сложный набор данных, содержащий до 150 классов, 1038 меток уровня изображения. И есть изображения 20K / 2K / 3K для обучения / проверки / тестирования.

Набор для валидации используется для исследования абляции.

4.1. Максимальное (MAX) и среднее (AVE) объединение в пул и уменьшение размера (DR)

ResNet50-Baseline: FCN на основе ResNet50 с расширенной сетью.
"B1" и "B1236": объединенные карты функций с размерами ячеек {1 × 1} и {1 × 1, 2 × 2, 3 × 3, 6 × 6. } соответственно.
«MAX» и «AVE»: максимальное количество операций объединения и среднее количество операций объединения отдельно.
‘DR’: уменьшение размера.

Средний пул стабильно дает лучшие результаты. И использовать DR лучше, чем без DR.

4.2. Вспомогательная потеря (AL)

α = 0,4 дает лучшую производительность. Таким образом, используется α = 0,4.

4.3. Различные числа глубины и многомасштабное (MS) тестирование

Как известно, более глубокая модель дает лучшие результаты. А многомасштабное тестирование помогает улучшить результаты.

4.4. Увеличение данных (DA) и сравнение с другими

ResNet269 + DA + AL + PSP: для одномасштабного тестирования, когда все компоненты объединены вместе, он значительно превосходит современные подходы.
ResNet269 + DA + AL + PSP + MS: при многомасштабном тестировании он дает еще лучшие результаты.
Некоторые примеры показаны ниже:

5. Сравнение с современными подходами

5.1. ADE2K - Конкурс по синтаксическому анализу сцены ImageNet 2016

PSPNet выиграла конкурс ImageNet Scene Parsing Challenge 2016.

5.2. ПАСКАЛЬ ЛОС 2012

В DA есть 10582/1449/1456 изображений для обучения / проверки / тестирования.

«+» Означает также предварительное обучение с помощью набора данных MS COCO.
Опять же, PSPNet превосходит все современные подходы, такие как FCN, DeconvNet, DeepLab и Dilation8.
Некоторые примеры показаны ниже:

5.3. Городские пейзажи

Он содержит 5000 высококачественных изображений с мелкими комментариями на уровне пикселей, собранных из 50 городов в разное время года. Есть 2975/500/1525 для обучения / проверки / тестирования. Он определяет 19 категорий, содержащих как вещи, так и объекты. Кроме того, 20000 изображений с грубыми аннотациями предоставляются для двух настроек сравнения, то есть обучения только с точными данными или с точными и грубыми данными. Тренировка с обоими отмечена знаком «++».

Обучение с использованием только точных данных или обучение как с точными, так и с грубыми данными, PSPNet также дает лучший результат.
Некоторые примеры показаны ниже:

Авторы также загрузили видео для набора данных Cityscapes, что очень впечатляет:

Еще два видео-примера:

Https://www.youtube.com/watch?v=gdAVqJn_J2M

Https://www.youtube.com/watch?v=HYghTzmbv6Q

С модулем Pyramid Pooling получается глобальная информация об изображении и улучшаются результаты.