Раскрашивание изображения — широко распространенная проблема компьютерного зрения. Конечной целью раскрашивания изображения является преобразование изображения в оттенках серого в визуально правдоподобное и значимое для восприятия цветное изображение.
Важно отметить, что раскрашивание изображения является некорректной задачей. В самом определении говорится, что целью является получение «визуально правдоподобной и реалистичной раскраски изображения», что обусловлено мультимодальным характером задачи — для полутонового изображения возможны различные раскраски.
Обесцвечивание изображения (цвет в оттенки серого) — это необратимое ухудшение качества изображения, и, начиная с этого момента, становится ясно, что для одного входного изображения возможны несколько значимых и правдоподобных результатов. Более того, ожидаемый «визуально правдоподобный» результат субъективен и довольно сильно отличается от разных людей.
Предыдущие работы
Однако в прошлом исследователи предлагали некоторые решения плохо обусловленной проблемы реалистичной раскраски изображения. Как я неоднократно упоминал, результат очень субъективен, и во многих из предложенных методов вмешательство человека было включено для получения лучших результатов окрашивания. За последние несколько лет было предложено несколько подходов к раскрашиванию, использующих возможности глубокого обучения. Таким образом, раскрашивание изучается из больших объемов данных в надежде на улучшенное обобщение в процессе колонизации.
Совсем недавно новые подходы исследовали компромисс между управляемостью от взаимодействия и надежностью от обучения.
В новом подходе исследователи из Microsoft Research Asia представляют первый подход глубокого обучения для локального окрашивания на основе образцов.
Современная идея
Идея предлагаемого подхода состоит в том, чтобы ввести эталонное цветное изображение, помимо входного изображения в градациях серого, в метод, который будет выводить правдоподобную раскраску. Учитывая эталонное цветное изображение, потенциально семантически похожее на входное изображение, сверточная нейронная сеть сопоставляет изображение в градациях серого с выходным цветным изображением сквозным образом.
Метод
Помимо предложенного, первого метода раскрашивания образцов, основанного на глубоком обучении, в своей статье исследователи представили еще несколько вкладов: алгоритм поиска эталонного изображения для эталонной рекомендации, с помощью которого также можно получить полностью автоматическую раскраску, метод, способный переноситься на неестественные изображения. изображения и расширение для раскрашивания видео.
Основной вклад: метод раскрашивания, по сути, способен раскрашивать изображение в соответствии с заданным семантически «похожим» эталонным изображением. Это изображение вводится пользователем или может быть получено с помощью системы поиска изображений, заданной в качестве второго вклада. Эта система пытается найти семантически похожее изображение на входное изображение, чтобы повторно использовать локальные цветовые пятна и обеспечить более реалистичную и правдоподобную выходную раскраску.
В методе раскрашивания используются две глубокие сверточные нейронные сети: подсеть подобия и подсеть раскрашивания. Первая сеть представляет собой сеть предварительной обработки, которая измеряет семантическое сходство между эталоном и целью с использованием сети VGG-19. Сеть VGG была предварительно обучена задаче распознавания объектов изображения в градациях серого. Эта сеть дает входные данные для сети раскрашивания и обеспечивает надежную и более значимую метрику подобия.
Вторая сеть — подсеть раскрашивания — это сквозная сверточная нейронная сеть, которая может одновременно обучаться выбору, распространению и предсказанию цветов. Эта сеть принимает в качестве входных данных результаты предварительной обработки, выполненной с помощью подсети подобия, а также входное изображение в градациях серого. Точнее, данные для этой сети представляют собой целевое полутоновое изображение, выровненное эталонное изображение и двунаправленные карты подобия (между входным и эталонным изображением).
Чтобы контролировать как истинные эталонные цвета (из эталонного изображения или аналогичного), которые будут использоваться, так и естественную раскраску, когда надежный эталонный цвет недоступен, авторы предлагают схему обучения ветвей для сети раскрашивания. Эта многозадачная сеть включает в себя две ветви: ветвь Chrominance и ветвь Perceptual. Одна и та же сеть используется и обучается, принимая разные входные данные в зависимости от ветви, а также разные функции потерь (опять же, в зависимости от того, какая ветвь используется).
В ветви Chrominance сеть учится выборочно распространять правильные эталонные цвета, что зависит от того, насколько хорошо совпадают цель и эталон. В то время как эта сеть пытается обеспечить согласованность цветности, другая ветвь через «Потери восприятия» обеспечивает близкое соответствие между результатом и точным цветовым изображением представлений признаков высокого уровня. Обе сети показаны на рисунке ниже.
Сравнение с другими современными
Предлагаемый метод дает более чем удовлетворительные результаты реалистичной раскраски изображения. Оценка разделена на несколько групп: сравнение с методами на основе образцов, сравнение с методами обучения и сравнение с интерактивными методами.
Для сравнения с методами на основе образцов авторы собрали около 35 пар изображений из всех статей, посвященных методам сравнения, и сравнили результаты количественно и качественно. Они показывают, что этот метод превосходит другие существующие методы, основанные на образцах, и дает лучшие визуальные результаты. Они утверждают, что успех обусловлен сложным механизмом выбора и распространения цветовых образцов, которые изучаются на основе данных, а не с помощью эвристики.
Отправляя раскрашенные результаты в VGG19 или VGG16, предварительно обученные задаче распознавания изображений, авторы пытаются измерить показания более или менее естественно сгенерированных изображений и сравнить их с другими методами, основанными на обучении. Используя эту оценку, они показывают, что метод превосходит существующие методы. Однако некоторые из способов дают лучшее значение PSNR, чем предложенный метод.
Вывод
В этом новом подходе к раскрашиванию авторы снова демонстрируют силу глубокого обучения для решения важной, хотя и плохо обусловленной проблемы. Они пытаются использовать гибкость и потенциал глубоких сверточных нейронных сетей и предлагают надежный и контролируемый метод раскрашивания изображений. Они также предлагают целую систему для автоматической раскраски изображения на основе наиболее похожего эталонного изображения, которая также распространяется на неестественные изображения и видео. В заключение предлагается целая развертываемая система, включающая инновационный основанный на глубоком обучении метод раскрашивания изображений в оттенках серого надежным и реалистичным способом.
Первоначально опубликовано на сайте neurohive.io 18 сентября 2018 г.