Практические руководства

Деформируемая свертка и ее приложения в видеообучении

Используйте видеокадры с редко размеченными данными

Слой свертки - это базовый слой в сверточных нейронных сетях. Хотя он широко используется в компьютерном зрении и глубоком обучении, у него есть несколько недостатков. Например, веса ядра фиксированы для определенной входной карты функций и не могут быть адаптированы к локальным изменениям функций, поэтому нам нужно больше ядер для моделирования сложного контекста карт функций, который является избыточным и неэффективным. Более того, поскольку воспринимающее поле выходного пикселя всегда представляет собой прямоугольник, в качестве совокупного эффекта многоуровневых сверток принимающее поле становится больше, в котором будет содержаться некоторый фон контекста, не связанный с выходным пикселем. Несвязанный фон внесет шум в тренировку выходного пикселя.

Представьте, что вы хотите внести небольшое изменение в традиционный слой свертки, чтобы преодолеть вышеуказанные проблемы: ядро ​​может адаптироваться к локальным изменениям характеристик, а воспринимающее поле может сходиться к семантическому фону, соответствующему выходному пикселю. К счастью, он уже реализован, и название усовершенствованного сверточного слоя называется деформируемым сверточным слоем.

В этом посте я расскажу о следующих темах:

  1. Деформируемая свертка
  2. Использование деформируемой свертки для повышения производительности оценки ключевых точек
  3. Использование деформируемой свертки для повышения производительности сегментации экземпляров

Деформируемая свертка

Деформируемая свертка - это сверточный слой плюс обучение смещению. Как показано выше, для каждого следа ядра свертки изучается двухмерное смещение, чтобы направить след в место, наиболее оптимизированное для обучения. Часть обучения смещению также является сверточным слоем, количество выходных каналов которого вдвое превышает количество входных каналов, поскольку каждый пиксель имеет две координаты смещения. На основе этого метода ядро ​​может адаптироваться к изменениям локальных функций, что эффективно для изучения семантических функций.

Это иллюстрация замещения обучения. a - традиционная свертка, при которой след ядра вообще не перемещается. b, c и d иллюстрируют движения следа.

В результате при деформируемой свертке воспринимающее поле глубокого пикселя концентрируется на соответствующем объекте. Как показано выше, темно-синий пиксель (вверху) принадлежит большой овце. Однако его прямоугольное принимающее поле (внизу) содержит маленькую овечку слева внизу, что может внести неоднозначность для таких задач, как сегментация экземпляра. В b рецептивное поле деформируется и концентрируется на большой овце, что позволяет избежать двусмысленности.

Понимание смещения в деформируемой свертке

Как обсуждалось выше, смещение способствует адаптации ядра к локальным особенностям и концентрации рецептивных полей. Как следует из названия, смещение используется для локального деформирования следа ядра и, как следствие, глобального деформирования рецептивного поля.

Теперь наступает сложная часть: поскольку смещение можно научить адаптироваться к объектам в текущем изображении, можем ли мы адаптировать объекты в текущем изображении к объектам в другом изображении с предоставленным смещением между ними?

Давайте конкретизируем. Предположим, у нас есть видео, в котором каждый кадр похож на соседние кадры. Затем мы разреженно выбираем некоторые кадры и маркируем их на уровне пикселей, например, семантические сегменты или ключевые точки и т. Д. Поскольку эти виды меток на уровне пикселей дороги, можем ли мы использовать немаркированные смежные кадры для повышения точности обобщения? В частности, с помощью метода деформации карт характеристик немаркированных кадров в соседние помеченные кадры, чтобы компенсировать недостающую информацию в помеченном кадре?

Изучение оценки временной позы из видео с разреженными названиями

Это исследование - хорошее решение того, о чем говорилось выше. Поскольку маркировка стоит дорого, в видео помечается только небольшое количество кадров. Тем не менее, внутренние проблемы в изображении помеченного кадра, такие как окклюзия, размытие и т. Д., Снижают точность и эффективность обучения модели. Чтобы решить эту проблему, авторы использовали деформируемую свертку, чтобы деформировать карты характеристик немаркированных кадров в карты их соседних помеченных кадров, чтобы компенсировать внутренние проблемы, описанные выше. Смещение - это просто оптимизированные различия функций между помеченным фреймом и его соседним немаркированным фреймом. Деформируемая часть построена с помощью пирамиды признаков с разным разрешением, в которой используются различные расширения. Прелесть этого метода в том, что мы можем использовать соседние немаркированные кадры для улучшения изучения функций помеченных кадров, поэтому нам не нужно маркировать каждый кадр видео, потому что соседние кадры похожи. Этот вид деформируемых методов, также называемых авторами методами «деформации», дешевле и более эффективен, чем некоторые другие методы видеообучения, такие как оптический поток, трехмерные свертки и т. Д.

Как показано выше, во время обучения карты характеристик немаркированного кадра B трансформируются в карты его соседнего помеченного кадра A. Во время логического вывода истинность кадра A может быть распространена с использованием обученной модели деформации, чтобы получить оценку ключевой точки для кадр B. Кроме того, можно деформировать большее количество соседних кадров с агрегированными их картами характеристик, чтобы повысить точность оценки ключевых точек.

Сегментация экземпляра в видео с распространением маски

Авторы также предложили распространение маски, например, сегментацию, добавив головку распространения маски в существующую модель Mask-RCNN, в которой прогнозируемая сегментация экземпляра во время t может быть распространена на соседний кадр t + δ.

Структура сети аналогична описанной выше сети оценки позы, но немного сложнее. Он состоит из трех частей: 1) прогнозирование сегментации экземпляра для кадра t; 2) оптимизация смещения и деформация сегментации между кадром t и t + δ; 3) агрегирование карты характеристик для окончательного прогнозирования сегментации экземпляра в кадре t + δ. Здесь авторы также использовали слои умножения, чтобы отфильтровать шум и сосредоточиться только на функциях, в которых существуют экземпляры объектов. С помощью агрегирования функций из соседних кадров можно было бы облегчить проблемы окклюзии и размытия.

Вывод

Деформируемая свертка может быть введена в задачи видеообучения с заданными смещениями, в которых реализовано распространение меток и агрегирование признаков для повышения производительности модели. По сравнению с традиционным методом обучения от одного кадра к одному метке, авторы предложили метод обучения с нескольких кадров на одну метку, который использует карты характеристик соседних кадров для улучшения обучения представлению. Таким образом, модель может быть обучена видеть, что закрыто или размыто другими глазами из соседних кадров.

использованная литература

Деформируемые сверточные сети, 2017
Изучение оценки временной позы из видео с разреженными пометками, 2019
Классификация, сегментация и отслеживание экземпляров объектов в видео с распространением маски, 2020