Глубокое обучение применялось к огромному количеству задач компьютерного зрения, и до сих пор оно оказалось успешным во многих из них. Тем не менее, есть еще некоторые задачи, в которых глубокие нейронные сети борются, и традиционные подходы компьютерного зрения работают лучше. Исторически сложилось так, что некоторые задачи были более привлекательными и поэтому хорошо изучены, в то время как другие привлекли гораздо меньше внимания. Одной из последних является перерисовка изображения (или экстраполяция изображения). В то время как заполнение дыр или заполнение недостающих деталей в изображениях, то есть наложение изображения, широко изучается, перерисовка изображения рассматривается лишь в нескольких исследованиях, и это не очень популярная тема среди исследователей.

Однако исследователи из Стэнфорда представили подход глубокого обучения к проблеме экстраполяции изображений (т. Е. перерисовки изображений). Они используют интересный подход и решают проблему экстраполяции изображений с помощью состязательного обучения.

Генеративное состязательное обучение - DCGAN

Генеративному состязательному обучению в последние несколько лет уделялось много внимания, и его применяли к множеству генеративных задач. В этой работе исследователи используют Generative Adversarial Networks, чтобы перерисовать изображение путем экстраполяции и заполнения частей равного размера по сторонам входного изображения.

Как и во многих генеративных задачах компьютерного зрения, цель состоит в том, чтобы создать реалистичное (и визуально приятное) изображение. Образы можно рассматривать как галлюцинации, выходящие за границы изображения, и интуитивно это нетривиальная задача, поскольку в реальности (почти) все может появиться за пределами изображения. Следовательно, необходим значительный объем дополнительного контента, который соответствует исходному изображению, особенно вблизи его границ. В то время как создание реалистичного контента вблизи границ изображения является сложной задачей, поскольку оно должно соответствовать исходному изображению, создание реалистичного контента вдали от границ почти так же сложно, но в основном из-за противоположного - отсутствия соседней информации.

В этой работе для решения проблемы экстраполяции изображений использовалась архитектура DCGAN. Авторы показывают, что их метод может генерировать реалистичные образцы цветных изображений 128 × 128, и, кроме того, он позволяет рекурсивно (до некоторой степени) получить более крупные изображения.

Данные

Набор данных Places365 использовался как для обучения, так и для оценки предлагаемого метода. Авторы определяют конкретную предварительную обработку, которая состоит из трех шагов: нормализация изображений, определение бинарной маски для маскировки центральной части изображения (только по горизонтали) и вычисление средней интенсивности пикселей по немаскированным областям. После предварительной обработки каждое входное изображение представляется в виде пары из двух изображений: исходного изображения и предварительно обработанного изображения. Предварительно обработанное изображение получается путем маскирования исходного изображения и объединения с изображениями средней интенсивности пикселей (для каждого канала).

Метод

Как упоминалось ранее, генеративная модель представляет собой сеть GAN, которая обучается с использованием трехэтапной процедуры обучения для учета стабильности в процессе обучения. Генераторная сеть представляет собой несимметричную сеть сверточного кодировщика-декодера, а дискриминатор учитывает глобальные и локальные дискриминаторы. Генераторные сети имеют 9 слоев (8 сверточных и 1 деконволюционный слой), в то время как дискриминатор имеет 5 сверточных и 1 полносвязный слой, а также слой конкатенации, который объединяет выходы локальных дискриминаторов для создания одиночный выход.

Все слои сопровождаются активацией ReLU, за исключением выходных слоев в обеих сетях, а расширенные свертки используются для дальнейшего улучшения окраски. Авторы утверждают, что расширенные свертки на самом деле сильно влияют на качество сгенерированного изображения и фактическую возможность перерисовки изображения. Фактически, улучшение происходит за счет увеличенного локального рецептивного поля, которое позволяет перекрашивать все изображение, а расширенные свертки - просто эффективный способ увеличения локального рецептивного поля в сверточных слоях без увеличения вычислительной сложности.

Оценка и выводы

Этот подход показывает многообещающие результаты, поскольку он доказал, что он может создавать относительно реалистичные изображения. Авторы оценили метод в основном качественно в связи с характером проблемы, и они также использовали RMSE в качестве эталонного показателя количественной оценки. Фактически, они используют модифицированный RMSE, в котором они учитывают простую постобработку изображения путем перенормировки изображений.

В заключительной части статьи они объясняют проведенные ими эксперименты с рекурсивной перерисовкой и показывают, что рекурсивно перекрашенные изображения остаются относительно реалистичными, даже несмотря на то, что шум нарастает с последовательными итерациями. Рекурсивно перекрашенное изображение с 5 итерациями приведено в качестве примера на изображении ниже.

Изначально опубликовано на neurohive.io.