Что такое управляемое сверхвысокое разрешение?

Управляемое сверхвысокое разрешение - это объединяющая структура для нескольких задач компьютерного зрения, где входными данными являются исходное изображение с низким разрешением некоторой целевой величины (например, глубина перспективы, полученная с помощью времяпролетной камеры) и направляющее изображение высокого разрешения из другого домена (например, изображение RGB с обычной камеры); а выходные данные target - это версия источника с высоким разрешением (в нашем примере - карта глубины с высоким разрешением).

Чем это полезно?

В сообществе компьютерного зрения одним из наиболее важных приложений управляемого сверхвысокого разрешения является сверхразрешение карт глубины, управляемых соответствующими изображениями RGB. Например, многие роботы оснащены как обычной камерой, так и времяпролетной камерой (или лазерным сканером). Последний получает карты глубины с низким пространственным разрешением, соответственно с большим размером пикселя в пространстве объекта, и возникает естественный вопрос, можно ли улучшить его разрешение, передав детали из изображения камеры. Другим примером является картографирование окружающей среды, где карты параметров, таких как высота деревьев или биомасса, доступны с разрешением картирования, которое значительно ниже, чем расстояние отбора проб с земли современных спутников наблюдения Земли.

Стандартный способ взглянуть на эту проблему - сформулировать ее как задачу сверхвысокого разрешения, то есть исходное изображение повышается до целевого разрешения, передавая недостающие высокочастотные детали из руководства.

Здесь мы предлагаем перевернуть эту интерпретацию с ног на голову и вместо этого рассматривать ее как попиксельное сопоставление направляющего изображения с областью исходного изображения. Пиксельное отображение параметризовано как многослойный перцептрон, веса которого узнаются путем минимизации расхождений между исходным изображением и целевым изображением с пониженной дискретизацией.

Интуиция, лежащая в основе нашего выбора выполнения простого преобразования пикселей в пиксели из справочника в исходный домен, заключается в том, что руководство содержит четкие детали, которые мы хотим восстановить, и, таким образом, с помощью плавного преобразования по пикселям эти детали будут сохранены. на выходе.

Есть уловка, чтобы воплотить эту простую идею в жизнь

Тем не менее, пиксельное отображение означает, что существует взаимно однозначное отображение от одного домена к другому, что, конечно, не то, что мы хотим. В противном случае определенный цвет в изображении RGB всегда будет отображаться на одно и то же значение глубины. По этой причине мы добавляем в качестве дополнительных входов в функцию сопоставления координаты x и y пикселей в изображении. Поступая таким образом, мы делаем функцию зависимой от местоположения: один и тот же цвет в разных местах направляющего изображения может быть сопоставлен с разными выходными значениями, если это необходимо.

Предлагаемый метод является неконтролируемым, с использованием только определенного источника и направляющих изображений для соответствия отображению. Для каждой новой пары изображений мы решаем новую задачу оптимизации, где ищем параметры, которые минимизируют следующие потери:

Эта потеря означает, что мы ищем параметры, которые делают субдискретизированную версию вывода нашего метода максимально приближенной к исходному источнику с низким разрешением.

Эта проблема крайне некорректно поставлена, ведь существует бесконечное количество потенциальных выходных изображений, которые выглядят точно так же, как исходное изображение, когда они субдискретизированы. Чтобы сделать эту задачу корректной, мы добавляем L2-регуляризатор к параметрам функции отображения. Таким образом мы также добиваемся резких и гладких результатов, не применяя прямое ограничение гладкости для выходных значений, которое могло бы вызвать размытие.

Имея отдельные ветви сети для значений пикселей (зеленый) и пространственных координат (синий), мы можем упорядочить эти части по отдельности, чтобы сделать функцию более плавной в цветовой области или в пространственной области по мере необходимости.

Результаты экспериментов

Вот несколько примеров результатов, которых мы можем достичь с помощью нашего метода по сравнению с конкурирующими методами. Мы представляем эксперименты по двум задачам: сверхразрешение карт глубины и сверхразрешение карт высот деревьев. Наша формула явно превосходит конкурирующие методы сверхвысокого разрешения при высоких коэффициентах передискретизации (от 8 до 32).

Чтобы узнать больше о деталях нашего метода или увидеть более подробную оценку наших результатов, вы можете просмотреть нашу публикацию:

Р. де Лютио, С. Д’Аронко, Дж. Д. Вегнер, К. Шиндлер: «Управляемое сверхвысокое разрешение как преобразование пикселя в пиксель», ICCV, 2019.

Также, если вы хотите использовать наш метод для собственных данных, код доступен здесь.

использованная литература

К. Хе, Дж. Сунь, X. Тан. «Управляемая фильтрация изображений», TPAMI, 2013 г.

Дж. Т. Бэррон, Б. Пул. «Быстрый двусторонний решатель», ECCV, 2016.

Т.-В. Хуэй, К. К. Лой, Х. Тан. «Сверхразрешение карты глубины за счет глубокого многомасштабного наведения», ECCV, 2016 г.