Непрестанно я гляжу в свой телефон каждый день, я восхищаюсь, когда вижу красивые пейзажи и смотрю на мир своими глазами. Тем не менее, я не упомянул моего главного героя, который помогает мне запечатлеть эти красоты — мои глаза. Кроме того, возникает первостепенный вопрос — насколько сильны мои глаза и мозг, обрабатывающие изображения? Эта конкретная мысль не приходила мне в голову, пока я не заинтересовался компьютерным зрением. Монументальный рост технологий камер, их пересечение с машинным обучением и правдоподобие воссоздания человеческого глаза с помощью упомянутых технологий составляют основу моей статьи.

Самый первый вопрос, который возникает относительно человеческого глаза, — почему у нас два глаза?. Этот вопрос восходит к моему детству, где меня учили, что причина в том, чтобы получить более широкий угол обзора и иметь бинокулярное зрение. Чтобы сделать это понятным, это способность каждого глаза видеть одинаковую сцену, но с другой точки зрения. В свою очередь, это создает несоответствие, которое обрабатывается мозгом, и в результате мы можем судить о расстояниях. Именно это восприятие глубины придает гравитацию нашим глазам. Доказательство идет с избитым примером, когда вы закрываете один глаз ручкой, помещенной перед вашими глазами, и пытаетесь определить местоположение ручки, и то же самое с другим глазом. Тем самым, приводя к ошибке параллакса пера. Итак, это составляет суть статьи, в которой исследуются основы определения глубины сцены.

С данной камерой мы можем визуализировать так же, как это делают наши глаза, но можем ли мы воспринимать глубину? В промышленности восприятие глубины объекта достигается с помощью популярных методов, а именно времени полета (ToF), лазерной триангуляции и стереозрения. Однако в статье основное внимание уделяется стереозрению, поскольку оно близко имитирует принцип глаза. В промышленной установке стереозрения две камеры размещаются подобно нашему глазу на расстоянии друг от друга, и каждая камера получает изображение объекта (P) с разной точки зрения, как показано на рисунке. На приведенном выше рисунке f — фокусное расстояние, b — расстояние между камерами, u_L и u_R — точки изображения точки объекта (P) относительно плоскости изображения левой и правой камеры соответственно. Несоответствие (d) определяется как uL — uR, расстояние между проецируемыми точками на плоскость изображения. Глубина и несоответствие обратно пропорциональны, что помогает вычислить глубину и, следовательно, соотношение: D = f * b/d.

Легко, верно? Но тут есть подвох. Выявление и сопоставление сходных элементов на изображении, снятом левой и правой камерами, т. е. наведение точек uL и uR для определения глубины, может быть затруднительным. Полученные изображения могут отличаться из-за условий освещения или другого положения/ориентации и настроек камеры. Но огромный поклон таким методам, как масштабно-инвариантное преобразование признаков (SIFT), взаимная корреляция, сопоставление символических признаков для решения проблемы стереосоответствия. Чтобы сделать это несложным, мы предполагаем, что оптические оси камер параллельны друг другу, и у нас есть изображения, как показано на рисунке. В результате базовый алгоритм стереосоответствия будет выглядеть так:

  1. для каждой эпиполярной линии (белая линия на изображении выше)
  2. для каждого пикселя в левом изображении
  3. сравните с каждым пикселем на той же эпиполярной линии на правом изображении
  4. выбрать пиксель с минимальной стоимостью совпадения

Минимальная стоимость совпадения, упомянутая выше, может быть абсолютной разностью или квадратичной разницей в яркости (или значениях интенсивности) между пикселем на левом и правом изображениях. Следовательно, решив вышеуказанную задачу оптимизации, можно определить глубину объекта. Проблема решена !! До сих пор мы видели, как воспринимать глубину с помощью двух камер/изображений. Можно ли восстановить глубину изображения с одной камеры? Ответ положительный.

За десятилетие машинное обучение глубоко проникло в различные приложения. Именно эта претенциозная технология придает новое значение компьютерному зрению и позволяет делать то невообразимое, на что не способны люди. Как упоминалось ранее в этой статье, нам нужны два глаза, чтобы точно воспринимать глубину. Однако глубину сцены можно определить с помощью одной камеры с одним изображением с помощью глубокого обучения. Во-первых, получение соответствующего набора данных для приложения имеет решающее значение для любых приложений машинного обучения. Доступные наборы данных для оценки глубины естественной сцены: Make3D, NYU, SUNRGBD, KITT. Этот набор данных имеет несколько изображений естественной сцены в качестве входных данных и карту глубины соответствующих изображений в качестве выходных данных. Карту глубины обучающих изображений можно создать с помощью xbox Kinect, лазерного сканера или любым другим способом, упомянутым ранее в этой статье. После получения набора данных можно обучить сверточные нейронные сети (CNN) с соответствующей архитектурой. Следовательно, карта глубины новой сцены может быть определена из прогноза обученной модели CNN.

Несмотря на то, что машинное обучение в некоторых аспектах превосходит человека, следует должным образом отметить уровень точности восприятия глубины и способность мозга достигать идеального стереосоответствия. При этом все указывает на самый первый вопрос, поднятый в этой статье — насколько сильны мои глаза и мозг, обрабатывающие изображения?

Использованная литература:

  1. Л.Хе, Г.Ванг и З.Ху, «Глубина обучения на основе отдельных изображений с помощью глубокого встраивания нейронной сети», 2018 г., Китай.
  2. Д.Эйген, К.Пурш, Р.Фергус, «Прогноз карты глубины по одному изображению с использованием многомасштабной сети глубин», 2014, Нью-Йорк.
  3. Р.А.Хамза, Х.Ибрагим, «Обзор литературы по алгоритмам карты несоответствия стереозрения», Журнал датчиков Hindawi Publishing Corporation, 2015, Малайзия.
  4. Изображение 1. Глаза крупным планом — https://twistedsifter.com/2012/08/extreme-close-ups-of-the-human-eye/
  5. Изображение 2 Настройка камеры стереовидения — http://chriswalkertechblog.blogspot.com/2014/03/stereo-vision-basics.html
  6. А. Нидер, «Стереоскопическое зрение: решение проблемы соответствия», 2003, Германия.