ОЦЕНКА ГЛУБИНЫ ИЗ СТЕРЕО

Как компьютеры видят глубину: последние достижения в методах глубокого обучения

Часть 1: Мотивация и основы стереозрения

Наше восприятие глубины необходимо для создания трехмерного мира вокруг нас. Это знание преобладало на протяжении веков, и одним человеком, который хорошо это знал, был Леонардо да Винчи. Он использовал свой опыт, чтобы помочь ему создать некоторые произведения искусства, которые будут известны во многих исторических произведениях, таких как «Тайная вечеря» или «Сальваторе Шиццера». Технически понимание биноклей восходит к 280 г. н.э., когда Евклид осознал наше восприятие глубины, когда люди фокусировались на одних и тех же объектах двумя глазами. Тем не менее, сегодня стереозрение является довольно интересной проблемой. Моя цель состояла в том, чтобы изучить тему глубоко. Теперь я превращаю свои заметки в серию блогов.

✍ Каждая статья будет включать викторину! Цель Pop Quizzes — закрепить критические концепции путем размышлений над отобранными наборами задач. Так что делитесь своими ответами в комментариях!

Оглавление

· I Введение
· II Восприятие глубины: люди в трехмерном пространстве
II.a Почему стерео?
· III Проблема стерео
III.a Методология стереовидения
III.b Эпиполярная геометрия (концепция)
III.c Эпиполярная геометрия (математика)
· IV поколения стереовидения Системы»
· V Future Work
· VI Заключение
· VII References
· Подробнее читайте Джозеф Робинсон, к.т.н. на Medium
· Поп-викторина
А) Хищник против добычи
Б) Стереозрение по Фишер-прайс
В) Дополнительные вопросы

Введение

Существует множество реальных применений оценки глубины, имеющих практическое значение в робототехнике, компьютерном зрении и иммерсивных дисплеях (см. рисунок выше). Мы будем рассматривать оценку глубины как задачу с несколькими изображениями. Проблемы с несколькими представлениями (или изображениями) охватывают различные проблемные области, такие как (1) стереозрение, (2) структура из движения и (3) оптический поток. Хотя каждый из них имеет огромное значение для проблем виртуальной реальности (ВР), робототехники и компьютерного зрения в целом, в этой серии, состоящей из нескольких частей, мы сосредоточимся на (1) стереозрении. В частности, прогресс глубокого обучения в технологии стереозрения. Во-первых, в Части I мы рассмотрим предварительный материал (то есть классическую теорию стереозрения).

Искусственные нейронные сети имеют долгую историю в компьютерном зрении, обеспечивая надежную основу для обнаружения и классификации объектов. Кроме того, глубокое обучение произвело революцию в этой области, обеспечив более глубокое представление изображений, которые изучает сеть. Критические компоненты этого недавнего успеха включают упрощенную сетевую архитектуру с большим количеством параметров и меньшим количеством правил, а также новые методы обучения, такие как отсев [3] и регуляризация L2 [4].

Прежде чем мы углубимся в конкретные решения для глубокого обучения, давайте сначала мотивируем проблему, понимая, почему пары стереоизображений могут определять глубину.

II Восприятие глубины: люди в трехмерном пространстве

Человеческий мозг обладает фантастической способностью видеть глубину в стереозрении. Мы используем наши два глаза, которые расположены отдельно друг от друга по обеим сторонам головы, чтобы позволить нам воспринимать, что объекты имеют три измерения: высоту (глубину), ширину и положение спереди-сзади относительно их окружения. Однако этот навык не уникален для людей — им обладают многие животные! Тем не менее, при попытках проведения компьютерного моделирования по этой теме по-прежнему возникает несколько проблем, главным образом потому, что они сложны или невозможны без наборов входных данных, содержащих информацию о том, на каком объекте вы хотите их обучить, И насколько близко / далеко от этих элементов в настоящее время находятся. В этой серии сообщений в блоге будут рассмотрены эти проблемы и то, как последние достижения в методах глубокого обучения позволили их преодолеть.

Мы можем использовать эпиполярную геометрию, чтобы восстановить размер глубины (т. em> объективов) и внешние (т. е. расстояние между оптическими центрами левой и правой камер, называемое базовой линией b) параметры.

Как мы можем автоматически вычислять 3D-геометрию из изображений? Какие сигналы в изображении предоставляют трехмерную информацию? Прежде чем рассматривать бинокуляр (т.е. стерео или два), давайте рассмотрим какой-то один вид, т.е. монокулярные характеристики.

Что ж, мы, люди, делаем это естественно. Следующие рисунки изображают сигналы, которые мы естественным образом используем для восприятия глубины мира.

  • Основные моменты
  • Тени
  • Силуэты
  • Взаимоотражения
  • Симметрия
  • Поляризация света

II.a Почему стерео?

Как вкратце упомянуто, сигналы глубины могут исходить из одного источника (например, монокулярного зрения). Другим способом может быть использование двух визуальных ориентиров одной и той же сцены (например, бинокулярное зрение) через пару стереоизображений. Зачем использовать более одного источника? Часто невозможно экстраполировать информацию о глубине из одного источника. Кроме того, монокулярное зрение масштабируетсяпроизвольно. На следующем рисунке показана концепция.

Разберем неоднозначность единого взгляда на примерах.

Изображая неоднозначность, мы видим P1 и P2, если смотреть из оптического центра (т. е. из положения камеры), спроецированные на плоскость изображения как P1' и P2' эквивалентны.

III Проблема стерео

Стерео в значительной степени мотивировано биологией (т. Е. Использованием левого и правого глаза для одновременного захвата визуальной информации).

Классические стереометоды были вдохновлены нашими средствами восприятия глубины, подобными вышеупомянутым сигналам. Например, можно использовать твердотельный решатель для сферических координат, решая уравнения в трехмерном пространстве с изображениями, снятыми под разными углами или перспективами на месте, создавая параллакс и другие эффекты. Тем не менее, в этой серии больше внимания будет уделено решениям для глубокого обучения (DL). Прежде чем мы углубимся в детали, нам нужно установить некоторое предварительное понимание этих основ, так что давайте начнем!

Далее мы рассмотрим, почему стереопары (то есть левого и правого изображения) достаточно для решения ранее упомянутой проблемы неоднозначности. Он использует триангуляцию из двух плоскостей изображения по соответствующим точкам в мировых координатах, которые могут видеть обе камеры.

III.a Методология стереозрения

Обычные алгоритмы делятся на две большие группы, а именно локальные и глобальные методы, соответствующие шагу:

  1. расчет стоимости.
  2. агрегация затрат.
  3. оптимизация/вычисление диспаратности.
  4. уточнение диспропорций.

По мере изучения современных комплексных решений, требовательных к данным, эти шаги будут аналогичны многим модулям систем, описанным в этом блоге. Но сначала давайте рассмотрим основы стереозрения.

III.b Эпиполярная геометрия (концепция)

Нормаль к плоскости, образованной пересекающимися лучами, называется эпиполярной плоскостью. Опять же, мы предполагаем калиброванные изображения и точечное соответствие между стереопарой.

Эпиполярное Ограничение сводит проблему соответствия к одномерному поиску по сопряженным эпиполярным линиям, показанным на следующей схеме.

Таким образом, эпиполярное ограничение предполагает ректифицированные стереоизображения, что означает, что одна и та же эпиполярная плоскость (как показано выше) выравнивается по рядам. Он ортогонален обоим и выровнен друг с другом [1]. Исправление изображений с использованием преобразования, основанного на внутренних и внешних параметрах, — это процесс, который насчитывает несколько десятилетий.

Стереопара — это изображения сцены, снятые двумя камерами с известным расположением относительно друг друга. Несоответствие измеряет горизонтальное расстояние (в пикселях) между левой и правой камерами (т. е. стереопарой). Таким образом, несоответствие ограничивается вдоль горизонтальной линии с выпрямленными изображениями с использованием эпиполярной геометрии.

В частности, точка (x, y) на левом изображении находится в точке (x-d, y) в правое изображение, где d — несоответствие (в пикселях). Затем смещение пикселей относится к глубине на фокусное расстояние f и расстояние между камерами, известное как базовая линия B: z = fB/d, где z — восстановленное значение глубины в трех координатных пространствах.

На следующем рисунке изображена стереопара (т. е. вход) и результирующая карта несоответствий (т. е. выход).

Мы находим соответствующие точки на двух изображениях, чтобы оценить относительную глубину. Как уже упоминалось, несоответствие и глубина напрямую связаны следующим образом.

III.c Эпиполярная геометрия (математика)

Теперь мы объясним математику, лежащую в основе введенных выше понятий. Не стесняйтесь переходить к следующему разделу для тех, кто менее заинтересован в том, почему стерео работает с строгой математической точки зрения (здесь).

Из выпрямленной пары изображений глубину Z можно определить по ее обратно пропорциональной зависимости от диспаратности d, где диспаратность определяется как разница пикселей по горизонтали при сравнении соответствий слева и справа, т. е. I(x, y) = D(x+d, y).

Отношения легче всего понять визуально.

Предоставив точку в левой плоскости изображения P_L(x, y), спроецированную в мировых координатах (X, Y, Z) как точку в 3D-сцене, наша цель заключается в восстановлении отсутствующей Z (глубины) при наличии стереопары.

Соответствие в правой плоскости изображения показано на следующем рисунке.

Мы устанавливаем относительные мировые координаты (красная ось) вместе с известной базовой линией bмежду двумя центрами камер:

Мы получаем

Мы можем выразить координаты, как показано на следующем рисунке.

IV поколения систем стереозрения

Стереозрение уже много лет вызывает интерес у исследователей. В настоящее время можно охарактеризовать различные методы как одно из трех поколений.

Что касается этой серии DL для оценки карты несоответствий, мы можем охарактеризовать методы как одно из следующих.

На следующей схеме показана сквозная система, как указано в (2).

Как мы увидим в следующих частях, черный (или оранжевый) ящик, представляющий сеть DL, может состоять из нескольких подмодулей, часто последовательно соединенных каскадом. Различные шаги аналогичны обычным шагам, используемым в традиционных системах стереозрения.

V Будущая работа

Далее мы начинаем рассматривать достижения в методах глубокого обучения для оценки глубины. В частности, в Части II мы рассматриваем несколько сетей глубокого стерео на основе изображений, которые охватывают период с 2015 по 2020 год (например, MC CNN [1], DispNet [2], GC-Net [3], PSMNet [4], iResNet [5] и GA-Net [6]). Затем Часть III, Часть IV и Часть V будут охватывать новейшие и лучшие (т. е. 2021–2022 года) стереометоды на основе видео. называется многоракурсным стерео (MVS) и генерируют карты достоверности на уровне субпикселей соответственно.

VI Заключение

Технология стереозрения делает успехи благодаря последним достижениям в области глубокого обучения. Часть I серии из нескольких частейохватывала основы классической технологии стереозрения: черновики находятся в стадии разработки, и каждый должен последовать за следующим в ближайшие недели и, возможно, месяцы.

Для получения дополнительной информации об использовании оценки глубины в вашей работе или исследовании, не стесняйтесь обращаться ко мне напрямую или оставить комментарий ниже! Мы можем помочь вам начать сегодня. Во второй части приготовьтесь узнать о различных глубинных моделях стереозрения на уровне изображения.

Посмотрите часть II.



VII Ссылки

[1] К. Луп и З. Чжан. Вычисление выпрямляющих гомографий для стереозрения. Конф. IEEE. Компьютерное зрение и распознавание образов, 1999.

[2] Збонтар, Юре и Янн Лекун. «Стереосопоставление путем обучения сверточной нейронной сети сравнению фрагментов изображения». Дж. Мах. Учиться. Рез. 17.1 (2016): 2287–2318.

[2] Майер, Николаус и др. «Большой набор данных для обучения сверточных сетей для оценки диспаратности, оптического потока и потока сцены». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2016.

[3] Кендалл, Алекс и др. «Сквозное изучение геометрии и контекста для глубокой стереорегрессии». Материалы Международной конференции IEEE по компьютерному зрению. 2017.

[4] Чанг, Цзя-Рен и Юн-Шэн Чен. Стереосоответствующая сеть пирамиды. Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2018.

[5] Лян, Чжэнфа и др. «Обучение оценке несоответствия посредством постоянства признаков». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2018.

[6] Чжан, Фейху и др. «Ga-net: Управляемая сеть агрегации для сквозного сопоставления стерео». Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов. 2019.

Следите за доктором Робинсоном в LinkedIn, Twitter и Facebook.



Узнайте больше от Джозефа Робинсона, доктора философии на Medium









Оценка глубины: основы и интуиция, автор Дэрил Тан, блог, на который я наткнулся при подготовке Части IIэтой серии, — отличная статья. . Он неплохо дополняет Часть I (то есть этот блог). Кроме того, темы помогут нам глубже понять тему по мере продвижения по серии.



Поп-викторина

Вот несколько вопросов о стереозрении, которые помогут лучше понять ситуацию, если над ними подумать и ответить. Прокомментируйте свои ответы и вопросы ниже. Используйте уроки, извлеченные из Части I этой серии: лучшие ответы и вопросы будут отмечены. 🏆

А) хищник против жертвы

Выживает сильнейший; концепции эволюции для выживания: можем ли мы связать концепции стереозрения с биологическим строением диких животных?

В чем разница в поле зрения при сравнении добычи (например, антилопы) и хищника (например, гепарда)?

На рисунке показаны хищник и его жертва, а также приблизительная схема их стереозрения. Учитывайте глубину, поле зрения и точность. Почему вы предполагаете, что это отличается? Какие преимущества и проблемы приходят на ум при рассмотрении различных стереовидов?

B) Стереозрение от fisher-price

Вспомним средство просмотра 3D-слайдов от Fisher-price. Как это работает? Стерео играет роль? Если да, то как? Какие реплики были задействованы? Как два изображения одного и того же предмета с немного разных точек зрения объединяются в 3D?

В) Дополнительные вопросы

1. В чем разница между тем, что гепард и антилопа видят в стерео?
2. Какое животное не может использовать стереозрение, чтобы найти свою добычу?
3. Какие животные не имеют системы стереозрения, но использовать другие органы чувств для охоты и обнаружения добычи (например, обоняние, слух)?
4. У кого лучше зрение: у кошек или собак?