Из-за рассеянного частицами света изображения, сделанные в туманную погоду, вероятно, будут включать в себя смещенные цвета, ослабленную насыщенность и пониженную контрастность. Такие факторы оказывают значительное неблагоприятное влияние на выполнение многих задач компьютерного зрения высокого уровня, таких как распознавание и классификация объектов, аэрофотосъемка, автономное вождение, дистанционное зондирование и другие.

Однако удаление дымки отдельного изображения - очень сложная задача, так как одно нечеткое изображение не имеет большого количества информации, включая структуру сцены и чистую сцену, тогда как одно необходимо для вывода другого. Чтобы компенсировать этот недостаток, существующие решения в основном полагаются на предварительные цвета ручной работы: часто предполагается локальная глубина, а также одна или несколько цветовых баз. Этот подход в целом работает хорошо, но он может легко стать непригодным для изображений, которые нарушают его предположения, например, из-за яркой поверхности или цветной дымки. В таких случаях восстановленное изображение имеет тенденцию быть перенасыщенным и имеет неправильный тон.

Проблема фактически неразрешима только из-за недостаточности низкоуровневой информации. Однако можно заметить, что люди могут легко определить естественность цвета - слишком ли зеленое дерево или слишком голубое небо. Люди получают такое понимание из-за семантических предпосылок, о которых они, как люди, знают.

Семантический подход к «дымообразованию» изображения

Исследователи из Австралийского национального университета, а именно Зианг Ченг, Шаоди Ю, Виорела Ила и Хондонг Ли, предлагают использовать аналогичный подход и включить семантические особенности в модель удаления дымки.

Фактически, они предлагают полностью сквозную сверточную нейронную сеть (CNN), которая изучает корреляцию между семантикой и естественным цветом объектов из обучающих выборок и определяет чистую сцену и цвет освещения на основе изученных семантических характеристик. Итак, если цвет конкретного объекта известен с высокой степенью достоверности (например, небо голубое, растения зеленые), семантика, усвоенная из обучающих примеров, дает очень хорошие информативные подсказки об истинном цвете объекта.

Более того, чистая сцена и окружающее освещение можно сделать с большой уверенностью. Затем, если другие объекты на изображении имеют цвета, которые невозможно предсказать с высокой степенью достоверности на основе семантических характеристик (например, автомобили, здания могут быть разных цветов), истинный цвет можно ожидать, например, с помощью низкоуровневых априорных значений. и окружающее освещение по оценкам других объектов с высокой степенью уверенности. Иллюстрация предлагаемого подхода представлена ​​на рисунке ниже.

Сетевая архитектура

Поскольку было замечено, что истинный цвет объектов и окружающее освещение являются взаимозависимыми при вводе туманного изображения в качестве входных данных, исследователи разработали сеть, которая объединяет их обоих и позволяет одному улучшать другое. Этот подход позволяет информации, полученной от объектов со строго достоверными семантическими априорными значениями (высокая степень достоверности истинного цвета, полученная из семантических априорных значений), распространяться на другие части изображения и способствует предсказанию истинного цвета для объектов со слабыми семантическими априорными значениями (низкая степень уверенности в отношении истинный цвет как узнал из семантической априорной). Обзор предлагаемой модели представлен на изображении ниже.

Модель принимает на вход туманные изображения и производит чистое изображение на выходе. Она состоит из трех модулей:

  • семантический модуль для извлечения семантических признаков более высокого уровня;
  • модуль глобальной оценки для прогнозирования глобальных характеристик;
  • цветной модуль для получения чистого изображения.

Семантический модуль. Для извлечения семантических признаков была выбрана хорошо известная сеть классификации изображений VGG16 за ее хорошую производительность и простоту конструкции. Модель была тщательно обучена для задач распознавания объектов более 1000 семантических категорий. Затем, учитывая, что для текущей модели устранения замораживания изображения требуются только функции, связанные с семантикой, а не точная маркировка, последний плотный и softmax слой модели VGG был удален, а выходные данные его промежуточных сверточных слоев использовались для семантической функции. добыча.

Модуль глобальной оценки. Затем исследователи используют семантический модуль для оценки набора из 32 глобальных характеристик. Цель здесь состоит в том, чтобы гарантировать, что вся ценная информация из глобальных функций, таких как окружающее освещение или семантический контекст, выведенная из семантики сцены, будет использоваться моделью. Затем исследователи применяют метод взвешенного по достоверности пула. Это позволяет модели извлекать глобальные признаки в зависимости от уровня достоверности семантических априорных значений в локальных регионах. Как уже обсуждалось выше, некоторые классы объектов (например, небо, деревья) связаны с большей уверенностью в их истинном цвете. Таким образом, глобальное объединение позволяет агрегировать локальные характеристики из этих строго надежных семантических априорных точек и транслировать их в другие части изображения.

Цветовой модуль. Этот модуль использует архитектуру AOD-Net, но принимает на вход не только нечеткие изображения, но также семантические и глобальные особенности, извлеченные из предыдущих модулей. Конечным выходом этой сверточной нейронной сети является RGB-изображение предсказанной чистой сцены.

Количественная и качественная оценка модели

Эффективность семантического подхода к «устранению матовости» отдельного изображения была количественно оценена и сравнена с другими современными методами на синтетических нечетких изображениях. Для этого использовались три индикатора:

  • среднеквадратичная ошибка (MSE);
  • пиковое отношение сигнал / шум (PSNR);
  • метрики структурного сходства (SSIM).

В таблицах ниже представлены результаты этого сравнения, основанные на двух разных наборах данных: с дымкой по цветовой шкале и с дымкой в ​​оттенках серого.

Как видите, семантический подход к «устранению матовости» изображения дает значительно лучшие результаты, чем другие существующие методы. Более того, показано, что метод устойчив к неоднозначности оценки, вносимой различными настройками освещения. Это подтверждается его отличными характеристиками на наборе данных с дымкой цветовой шкалы (Таблица 1). Следовательно, результаты этой количественной оценки подтверждают представление о том, что семантический априор является мощным инструментом для устранения дымки изображения.

Также было проведено качественное сравнение результатов предложенной модели с другими существующими современными методами «устранения дымки» изображения. Сравнение проводилось на совокупности синтетических и реальных туманных изображений. Однако стоит отметить, что, учитывая семантическую природу предложенной модели, реальные сцены для сравнения были выбраны так, чтобы содержать семантические классы, аналогичные обучающим примерам - сцены в помещении и сцены дороги на открытом воздухе.

На рисунках 4–6 показаны возможности предложенного семантического подхода к «устранению дымки» одиночного изображения. Модель может восстанавливать сцены в очень сильной дымке разных цветов, восстанавливать яркость и цветовой баланс, предлагать правдоподобные цвета объектам, неразличимым человеческому глазу. Например, на рисунке 4 небо страдает от сильного изменения цвета, но модель все еще способна восстановить его естественным образом и значительно превосходит другие современные методы. Этот разрыв в производительности связан с тем, что модель при семантическом подходе получает дополнительную информацию о том, что отображается, и использует эту информацию для получения высококачественного результата.

Подведем итоги

Предлагаемый семантический подход к удалению дымки отдельного изображения является первым, который использует высокоуровневые функции для изучения семантических априорных значений, которые предоставляют информативные подсказки для оценки лежащей в основе чистой сцены. Модель оказалась устойчивой к таким экстремальным условиям, как сильная дымка, яркие поверхности, резкое изменение цвета, насыщенный атмосферный свет и другие. Он позволяет получать самые современные результаты на наборах данных с синтетической дымкой, а также на реальных сценах семантического класса, аналогичных тем, которые модель обучалась на уличных сценах.

И вот главное ограничение предлагаемого подхода. Его нельзя будет хорошо обобщить на естественные сцены на открытом воздухе, пока модель не обучится на соответствующих изображениях. Однако соответствующие наборы данных отсутствуют, и, следовательно, существует дефицит семантики общих объектов реального мира, а также их соответствующих реальных цветов. Тем не менее, авторы обещают улучшить свою модель, обучив ее более широкому диапазону изображений.

Катерина Койдан