Раскрашивание изображения — широко распространенная проблема компьютерного зрения. Конечной целью раскрашивания изображения является преобразование изображения в оттенках серого в визуально правдоподобное и значимое для восприятия цветное изображение.

Важно отметить, что раскрашивание изображения является некорректной задачей. В самом определении говорится, что целью является получение «визуально правдоподобной и реалистичной раскраски изображения», что обусловлено мультимодальным характером задачи — для полутонового изображения возможны различные раскраски.

Обесцвечивание изображения (цвет в оттенки серого) — это необратимое ухудшение качества изображения, и, начиная с этого момента, становится ясно, что для одного входного изображения возможны несколько значимых и правдоподобных результатов. Более того, ожидаемый «визуально правдоподобный» результат субъективен и довольно сильно отличается от разных людей.

Предыдущие работы

Однако в прошлом исследователи предлагали некоторые решения плохо обусловленной проблемы реалистичной раскраски изображения. Как я неоднократно упоминал, результат очень субъективен, и во многих из предложенных методов вмешательство человека было включено для получения лучших результатов окрашивания. За последние несколько лет было предложено несколько подходов к раскрашиванию, использующих возможности глубокого обучения. Таким образом, раскрашивание изучается из больших объемов данных в надежде на улучшенное обобщение в процессе колонизации.

Совсем недавно новые подходы исследовали компромисс между управляемостью от взаимодействия и надежностью от обучения.

В новом подходе исследователи из Microsoft Research Asia представляют первый подход глубокого обучения для локального окрашивания на основе образцов.

Современная идея

Идея предлагаемого подхода состоит в том, чтобы ввести эталонное цветное изображение, помимо входного изображения в градациях серого, в метод, который будет выводить правдоподобную раскраску. Учитывая эталонное цветное изображение, потенциально семантически похожее на входное изображение, сверточная нейронная сеть сопоставляет изображение в градациях серого с выходным цветным изображением сквозным образом.

Метод

Помимо предложенного, первого метода раскрашивания образцов, основанного на глубоком обучении, в своей статье исследователи представили еще несколько вкладов: алгоритм поиска эталонного изображения для эталонной рекомендации, с помощью которого также можно получить полностью автоматическую раскраску, метод, способный переноситься на неестественные изображения. изображения и расширение для раскрашивания видео.

Основной вклад: метод раскрашивания, по сути, способен раскрашивать изображение в соответствии с заданным семантически «похожим» эталонным изображением. Это изображение вводится пользователем или может быть получено с помощью системы поиска изображений, заданной в качестве второго вклада. Эта система пытается найти семантически похожее изображение на входное изображение, чтобы повторно использовать локальные цветовые пятна и обеспечить более реалистичную и правдоподобную выходную раскраску.

В методе раскрашивания используются две глубокие сверточные нейронные сети: подсеть подобия и подсеть раскрашивания. Первая сеть представляет собой сеть предварительной обработки, которая измеряет семантическое сходство между эталоном и целью с использованием сети VGG-19. Сеть VGG была предварительно обучена задаче распознавания объектов изображения в градациях серого. Эта сеть дает входные данные для сети раскрашивания и обеспечивает надежную и более значимую метрику подобия.

Вторая сеть — подсеть раскрашивания — это сквозная сверточная нейронная сеть, которая может одновременно обучаться выбору, распространению и предсказанию цветов. Эта сеть принимает в качестве входных данных результаты предварительной обработки, выполненной с помощью подсети подобия, а также входное изображение в градациях серого. Точнее, данные для этой сети представляют собой целевое полутоновое изображение, выровненное эталонное изображение и двунаправленные карты подобия (между входным и эталонным изображением).

Чтобы контролировать как истинные эталонные цвета (из эталонного изображения или аналогичного), которые будут использоваться, так и естественную раскраску, когда надежный эталонный цвет недоступен, авторы предлагают схему обучения ветвей для сети раскрашивания. Эта многозадачная сеть включает в себя две ветви: ветвь Chrominance и ветвь Perceptual. Одна и та же сеть используется и обучается, принимая разные входные данные в зависимости от ветви, а также разные функции потерь (опять же, в зависимости от того, какая ветвь используется).

В ветви Chrominance сеть учится выборочно распространять правильные эталонные цвета, что зависит от того, насколько хорошо совпадают цель и эталон. В то время как эта сеть пытается обеспечить согласованность цветности, другая ветвь через «Потери восприятия» обеспечивает близкое соответствие между результатом и точным цветовым изображением представлений признаков высокого уровня. Обе сети показаны на рисунке ниже.

Сравнение с другими современными

Предлагаемый метод дает более чем удовлетворительные результаты реалистичной раскраски изображения. Оценка разделена на несколько групп: сравнение с методами на основе образцов, сравнение с методами обучения и сравнение с интерактивными методами.

Для сравнения с методами на основе образцов авторы собрали около 35 пар изображений из всех статей, посвященных методам сравнения, и сравнили результаты количественно и качественно. Они показывают, что этот метод превосходит другие существующие методы, основанные на образцах, и дает лучшие визуальные результаты. Они утверждают, что успех обусловлен сложным механизмом выбора и распространения цветовых образцов, которые изучаются на основе данных, а не с помощью эвристики.

Отправляя раскрашенные результаты в VGG19 или VGG16, предварительно обученные задаче распознавания изображений, авторы пытаются измерить показания более или менее естественно сгенерированных изображений и сравнить их с другими методами, основанными на обучении. Используя эту оценку, они показывают, что метод превосходит существующие методы. Однако некоторые из способов дают лучшее значение PSNR, чем предложенный метод.

Вывод

В этом новом подходе к раскрашиванию авторы снова демонстрируют силу глубокого обучения для решения важной, хотя и плохо обусловленной проблемы. Они пытаются использовать гибкость и потенциал глубоких сверточных нейронных сетей и предлагают надежный и контролируемый метод раскрашивания изображений. Они также предлагают целую систему для автоматической раскраски изображения на основе наиболее похожего эталонного изображения, которая также распространяется на неестественные изображения и видео. В заключение предлагается целая развертываемая система, включающая инновационный основанный на глубоком обучении метод раскрашивания изображений в оттенках серого надежным и реалистичным способом.

Первоначально опубликовано на сайте neurohive.io 18 сентября 2018 г.