Это руководство по SLAM - одно из многих руководств от Comet Labs по глубоким технологическим инновациям в области искусственного интеллекта и робототехники.

Создано Эбби Яо

С одного взгляда

Ожидается, что мобильные роботы будут выполнять сложные задачи, требующие навигации в сложной и динамичной внутренней и внешней среде без участия человека. Чтобы автономно перемещаться, планировать путь и выполнять эти задачи эффективно и безопасно, робот должен иметь возможность локализоваться в своей среде на основе построенных карт. Отображение пространственной информации об окружающей среде выполняется в режиме онлайн без предварительного знания местоположения робота; Построенная карта впоследствии используется роботом для навигации.

Перейти:

1) Методы локализации

2) Что такое SLAM?

3) Датчики

4) Карты

5) Типы визуальных методов SLAM

6) Новые границы для визуального SLAM

7) Инструментарий, приложение и ссылки

В последнее время наблюдается значительный ажиотаж по поводу использования технологий из индустрии робототехники и автономных транспортных средств для картографирования помещений, где недоступны GPS или GNSS. Эта технология называется SLAM, одновременная локализация и картографирование. Это процесс, в котором робот строит карту, представляющую его пространственную среду, при этом отслеживая свое положение на построенной карте.

Если вы пытаетесь заняться автономными транспортными средствами любого типа, это руководство обеспечит основу, охватывая темы, начиная от базовых методов локализации, таких как одометрия колес, до более продвинутых SLAM, особенно SLAM на основе визуализации. Он обеспечивает фундаментальную основу и методологии, используемые для визуальной реализации SLAM. Он заглядывает в многообещающее будущее некоторых отраслей с помощью локализации и картографии. Он также включает значительные разработки в области монокулярных датчиков и датчиков RGB-D для плотной трехмерной реконструкции окружающей среды.

Методы локализации

Локализация робота требует сенсорной информации о положении и ориентации робота на построенной карте. Каждый метод имеет некоторые серьезные ограничения, поэтому были развернуты надлежащие методы объединения датчиков, чтобы преодолеть ограничения каждого датчика в отдельности.

Измерение относительного позиционирования

Самая простая форма - использовать методы одометрии колес, которые полагаются на энкодеры для измерения количества вращения колес. В этих методах измерения вращения колеса постепенно используются в сочетании с моделью движения робота для определения текущего местоположения робота относительно глобальной системы координат. Наиболее значительный источник ошибок - буксование колес на неровной местности или скользком полу. IMU также используется для измерения линейного и вращательного ускорения роботов. Тем не менее, он все еще может пострадать от таких факторов, как большой снос и чувствительность к ухабистой земле.

Как и в случае одометрии, оценки положения из инерциальной навигации получают путем интеграции полученной информации от датчиков; один раз для определения скорости, два раза для определения пройденного роботом расстояния. Системы независимы от внешних источников информации. Однако, поскольку измерения выполняются путем интегрирования, оценки положения со временем смещаются и могут привести к увеличению ошибок.

Абсолютное измерение местоположения

Также широко используются лазерные дальномеры. Как оптические датчики, они оценивают расстояние, вычисляя разность фаз между посланной и отраженной волной. К сожалению, в крупномасштабных средах обязательно будут области, лишенные функций, видимых лазерным дальномером, таких как открытые атриумы или коридоры со стеклянными стенами.

При локализации Wi-Fi используется карта Wi-Fi на основе графа, собирающая мощность сигнала по всему полю. В этом подходе среднее и стандартное отклонения наблюдений RSSI WiFi аппроксимируются линейной интерполяцией на графике. Это приводит к эффективной с точки зрения вычислений функции правдоподобия наблюдения, и оптимизированное местоположение может быть получено из функции вероятности. Однако он ограничен зоной покрытия сигнала WiFi с информацией предварительно изученного графика WiFi.

Рис. 1: Гауссовский график Wi-Fi, извлеченный из процесса, для одной точки доступа. Средние значения RSSI имеют цветовую кодировку в диапазоне от -90 дБм до -20 дБм. Места, где робот наблюдал сигналы от точки доступа, отмечены крестиками.

Большинство роботов используют систему глобального позиционирования (GPS), которая позволяет получать информацию о позе. Имея точную предварительную информацию о том, где находятся спутники, после того, как приемник вычислит свое расстояние от трех или более спутников, используя время прохождения радиосигналов, можно рассчитать истинное местоположение. Конечно, плохое покрытие спутникового сигнала для помещений ограничивает его точность.

Это измерение предоставляет информацию о местоположении робота независимо от предыдущих оценок местоположения; местоположение определяется не путем интегрирования последовательности измерений, а непосредственно из одного измерения. Это имеет то преимущество, что ошибка положения не становится неограниченной, как в случае с методами относительного положения.

Multi-Sensor Fusion

Мобильные роботы обычно оснащены несколькими сенсорными системами, чтобы избежать ограничений, когда для восстановления окружающей среды используется только один сенсор. Измерения относительного положения постоянно предоставляют точную информацию о местоположении, а в определенные моменты времени выполняются абсолютные измерения для исправления потенциальных ошибок. Существует ряд подходов к объединению датчиков для локализации роботов, в том числе объединение нескольких сигналов датчиков на самом низком уровне перед их однородной обработкой, а также иерархические подходы к оценкам состояния взрывателей, получаемым независимо от нескольких датчиков.

Измерения положения можно принципиально объединить в формальную вероятностную структуру, такую ​​как структура Марковской локализации. Основываясь на всей доступной информации, робот может в определенной степени полагать, что он находится в определенном месте. Проблема локализации состоит в оценке плотности вероятности по пространству всех местоположений. Фреймворк «Марковская локализация» объединяет информацию от нескольких датчиков в форме относительных и абсолютных измерений, чтобы сформировать общее представление о местоположении.

Рис. 2: Предположим, что положение робота одномерное. По мере продвижения вперед распределение плотности вероятности становится более плавным. Робот запрашивает свои датчики и обнаруживает себя.

Что такое SLAM?

Внедрение навигационной системы, которая использует искусственные ориентиры или априори известные карты окружающей среды, и точные сенсорные системы для получения точных измерений ориентиров или характеристик карты, для современных роботов несложно. Точно так же задача построения карты окружающей среды с учетом точного положения робота - это в значительной степени решенная проблема. Однако решить всю проблему одновременно намного сложнее, так как мобильный робот может построить карту неизведанной среды, одновременно используя эту карту для локализации.

Обладая предварительным знанием окружающей среды, мобильные роботы могут выполнять ряд задач. Например, карта может использоваться при планировании пути или обеспечивать интуитивно понятную визуализацию для человека-оператора. Также карта ограничивает ошибку, допускаемую при оценке состояния робота. Без карты точный счет быстро сдвинулся бы со временем. С другой стороны, используя карту (например, набор различимых ориентиров), робот может «сбросить» свою ошибку локализации, повторно посетив известные области.

Без карты ассоциация данных становится намного более сложной, а именно неизвестное сопоставление между ориентирами и наблюдениями, когда оценка позы робота подвержена неопределенности. В настоящее время мы вступаем в новую эпоху устойчивого восприятия, когда производительность с низким уровнем отказов, высокоуровневое понимание динамических сред, гибкость для регулировки вычислительной нагрузки в зависимости от сенсорных и вычислительных ресурсов и управляемость задачами восприятие не требуется. Будущие задачи будут сосредоточены на методах, обеспечивающих крупномасштабное внедрение во все более неструктурированной среде и особенно в ситуациях, когда GPS-подобные решения недоступны или ненадежны: например, в городских каньонах, под листвой, под водой или на удаленных планетах.

Популярность проблемы SLAM коррелирует с появлением внутренней мобильной робототехники. Использование GPS не позволяет ограничить ошибку локализации при использовании в помещении. Кроме того, SLAM предлагает привлекательную альтернативу пользовательским картам, демонстрируя, что работа с роботом доступна даже при отсутствии инфраструктуры локализации целевой спецификации.

Важные приложения SLAM включают:

  • Автоматическое пилотирование автомобиля на неизученной бездорожье
  • Спасательные работы в условиях повышенного риска или сложной навигации
  • Планетарные, воздушные, наземные и океанические исследования
  • Приложения дополненной реальности, в которых виртуальные объекты задействованы в реальных сценах.
  • Системы визуального наблюдения
  • Медицина и многое другое

Построение 3D-реконструкции объектов становится в равной мере применимо и с развитием визуального SLAM.

Датчики

Датчики обычно делятся на две основные категории: интероцептивные датчики и экстероцептивные датчики. Интероцептивные датчики, такие как колесные одометры и IMU, генерируют измерения относительного положения. Они подвержены несистематическим ошибкам из-за внешних причин, таких как вмешательство человека, а также систематическим ошибкам из-за несовершенства конструкции роботов. Экстероцептивные датчики, включая камеры и лазеры, обеспечивают абсолютные измерения положения. При использовании рядом друг с другом они могут компенсировать такие ошибки, как дрейф одометрии. Три основных типа датчиков, применяемых в современной технологии SLAM, - это акустические датчики, лазерные дальномеры и визуальные датчики.

Акустические датчики используют метод времени полета (TOF) для измерения местоположения. Сонарные датчики в основном используются под водой, где исключены лазерные дальномеры и визуальные датчики. Низкочастотные гидролокаторы минимизируют поглощение, а гидролокаторы обеспечивают гораздо лучшее разрешение в подводных условиях. Однако монотонность подводных областей означает, что информацию о глубине от сонара гораздо труднее интерпретировать из-за высокой угловой неопределенности. Ультразвуковые датчики обычно являются самым дешевым доступным источником пространственного зондирования для мобильных роботов. Они совместимы с большинством типов поверхностей, будь то металлические или неметаллические, чистые или непрозрачные, при условии, что измеряемая поверхность имеет достаточную акустическую отражательную способность. Однако низкое пространственное разрешение и диапазон чувствительности, чувствительность к факторам окружающей среды и низкая скорость отклика затрудняют использование ультразвуковых датчиков в роботах.

Лазерные дальномеры также используют методы ToF и фазового сдвига для измерения положения. Высокая скорость и точность лазерных дальномеров позволяют роботам производить точные измерения расстояния. Это способствует значительной популярности лазерных дальномеров в решении проблем SLAM, поскольку они способны получать надежные результаты как в помещении, так и на открытом воздухе. Лазерный сканер - лучший датчик для извлечения плоских объектов (например, стен) из-за предоставляемых данных большого диапазона. Однако цена - обычный камень преткновения. Например, система 3D LiDAR от Velodyne с точностью до 2 см может стоить 75 000 долларов.

Единственное, чего не хватает акустическим датчикам, LiDAR и другим датчикам дальности, - это способности использовать свойства поверхности для локализации и идентификации объектов. Цветные и полутоновые изображения позволяют роботам использовать более широкий набор информации для идентификации и локализации функций в окружающей среде.

Визуальные датчики в основном бывают трех типов: монокулярные камеры, стереокамеры и камеры RGB-D. Богатая визуальная информация доступна с пассивных недорогих визуальных датчиков, которых нет в LiDAR. Однако компромисс - это более высокие вычислительные затраты и потребность в более сложных алгоритмах для обработки изображений и извлечения необходимой информации. Системы со встроенными камерами и IMU также являются основным направлением будущих разработок SLAM.

Одна из основных причин, по которой монокулярные камеры используются при решении проблем SLAM, заключается в том, что оборудование, необходимое для его реализации, намного проще, что приводит к тому, что системы становятся дешевле и физически меньше. Внезапно SLAM стал доступен на мобильных телефонах без необходимости в дополнительном оборудовании. Однако слабым местом является то, что алгоритмы и программное обеспечение, необходимые для монокулярного SLAM, намного сложнее из-за отсутствия прямой информации о глубине из 2D-изображения. Тем не менее, интегрируя измерения в цепочке кадров с течением времени с использованием метода триангуляции, можно совместно восстановить форму карты (и движение камеры в предположении, что камеры не неподвижны). Но поскольку глубины точек не наблюдаются напрямую, оценочные положения точки и камеры связаны с реальными положениями с помощью общего неизвестного масштабного коэффициента. Таким образом, карта становится безразмерной картой без какого-либо реального значения слова, связанного с одной единицей карты.

Чтобы решить проблему доступности весов, есть несколько альтернатив, кроме стереокамер. Реальная метрическая шкала может быть введена с помощью ссылки на внешнюю шкалу в виде заранее заданного объекта или набора с известным размером, который можно распознать во время сопоставления.

Рис. 3: Работа выполняется путем комбинирования обнаружения плоских объектов с SLAM для распознавания картин в художественной галерее, а затем использования известных размеров картин для установки масштаба карты. Адаптировано из «Объединение monoSLAM с распознаванием объектов для увеличения сцены с помощью носимой камеры», авторы Castle, R., Klein, G., & Murray, D., 2010, Image and Vision Computing, 28 (11), 1548–1556.

Один из самых простых способов получить информацию о глубине напрямую - использовать Стереокамеры. Система стереокамер состоит из двух камер, разделенных фиксированным расстоянием; Наблюдения за положением одной и той же трехмерной точки в обеих камерах позволяют рассчитать глубину с помощью триангуляции, так же, как мы, люди, делаем с нашими глазами. Это исключает ограничения, заключающиеся в том, что информация о глубине будет недоступна без движения камер, как в случае с монокулярными камерами. Однако диапазон измерения глубины ограничен базовой линией и разрешением. Как правило, чем шире базовая линия, тем точнее оценка глубины, хотя для настройки с более широкой базовой линией требуется большее пространство. Базовая линия для гарнитуры AR обычно составляет всего около 20 см; и тем более на мобильном телефоне. Учитывая большую вычислительную нагрузку, FPGA становится основной силой для обработки высокой скорости входных данных.

Рис. 4: Основной принцип большинства стереокамер. Точка в реальном мире проецируется на два кадра пленки двумя камерами по-разному из-за их несопоставимого положения. Точка на изображении левой камеры смещена на заданное расстояние на изображении правой камеры. Если для каждой камеры известно относительное положение каждой точки, можно получить значение глубины.

Большинство систем SLAM используют камеры RGB-D, которые генерируют трехмерные изображения с помощью структурированного света или технологии времени пролета, обе из которых могут напрямую предоставлять информацию о глубине. Что касается камеры со структурированным светом, камера проецирует известный рисунок на объекты и воспринимает деформацию рисунка с помощью инфракрасной камеры для вычисления глубины и информации о поверхности объектов. Для времяпролетной камеры камера получает информацию о глубине путем измерения времени пролета светового сигнала между камерой и объектами. По сравнению с камерами RGB-D, основанными на технологии времени пролета (например, Kinect для Xbox One), структурированные датчики света (например, Kinect для Xbox 360) чувствительны к освещению. Это ограничивает их применимость под прямыми солнечными лучами. Кроме того, было обнаружено, что камеры RGB-D имеют различные общие ограничения. Они не предоставляют надежных данных о дальности для полупрозрачных или сильно отражающих поверхностей, а также имеют ограниченный эффективный диапазон.

Карты

Наиболее часто используемые представления карт в робототехнике:

Карты функций

Поскольку этот подход использует ограниченное количество разреженных объектов для представления карты, его вычислительные затраты могут быть относительно низкими, а алгоритмы управления картой являются хорошими решениями для текущих приложений. Основным недостатком представления карты объектов является его чувствительность к ложным ассоциациям данных.

Сетки занятости

Они полезны в алгоритмах планирования и исследования пути, в которых информация о вероятности занятости может снизить сложность задачи планирования пути. Основным недостатком этого метода является его вычислительная сложность, особенно для больших сред.

Визуальная структура реализации SLAM

Интерес к SLAM, основанному на визуальном представлении, возрос из-за того, что пассивные недорогие видеодатчики предоставляют богатую визуальную информацию по сравнению с лазерными дальномерами. Большинство современных визуальных SLAM-систем основаны на отслеживании набора точек через последовательные кадры камеры и использовании этих треков для триангуляции их трехмерного положения для создания карты; при одновременном использовании предполагаемых местоположений точек для расчета позы камеры, которая могла их наблюдать.

Рис. 5. Базовый принцип работы V-SLAM, исходя из точечного наблюдения и внутренних параметров камеры, трехмерная структура сцены в реальном времени вычисляется на основе предполагаемого движения камеры.

Архитектура системы SLAM включает в себя два основных компонента: интерфейс и серверную часть. Внешний интерфейс преобразует данные датчиков в модели, которые поддаются оценке, в то время как серверная часть выполняет вывод на основе абстрактных данных, созданных интерфейсом.

Кратковременная ассоциация данных отвечает за ассоциацию соответствующих функций в последовательных измерениях сенсора. С другой стороны, долгосрочное связывание данных (или замыкание цикла) отвечает за связывание новых измерений со старыми ориентирами.

Рис. 6. Фронтенд и бэкэнд в системе Visual SLAM.

Типы визуальных методов SLAM

Способ, которым системы SLAM используют данные изображения, можно разделить на разреженный / плотный и на основе функций / прямой. Первый описывает количество областей, используемых в каждом принятом кадре изображения, а второй описывает различные способы использования данных изображения.

Редкие и плотные методы

С точки зрения того, какие области на полученном изображении используются, системы SLAM можно классифицировать как разреженные или плотные. Более конкретно, системы разреженного SLAM используют только небольшое выбранное подмножество пикселей в кадре изображения, в то время как системы плотного SLAM используют большую часть или все пиксели в каждом принятом кадре. Поскольку они используют разное количество пикселей и регионов в данной области, карты, созданные с помощью разреженных и плотных методов, сильно различаются. Карты, созданные с помощью разреженных методов, в основном представляют собой облака точек, которые являются грубым представлением сцены и в основном используются для отслеживания положения камеры (локализации). С другой стороны, плотные карты предоставляют гораздо больше деталей просматриваемых сцен, но поскольку они используют гораздо больше пикселей, чем разреженные методы, обычно требуется более мощное оборудование (для большинства современных систем плотного SLAM требуются графические процессоры).

(a) (b) ©

Рис. 7: Разница между картами, созданными разреженными и плотными системами SLAM. (a) Разреженная карта, созданная PTAM, где цветные точки являются точками карты. (b) Полуплотная карта в LSD-SLAM, где цветные точки являются точками карты. (c) Плотное отображение, порожденное системой DTAM. Все точки на поверхности являются частью карты.

Функциональные / прямые методы

В зависимости от требований к системе для обработки данных можно выбрать один из различных методов.

Рис. 8: Различный рабочий процесс между основанным на функциях и прямым методом отслеживания и сопоставления. Составленные карты различаются в зависимости от того, какой метод используется.

Основными этапами метода на основе признаков являются: извлечение набора разреженных функций из входных изображений, сопоставление функций, полученных из разных поз, и решение проблемы SLAM путем минимизации ошибки перепроецирования признаков ( разница между отслеживаемым местоположением точки и местом, где, как ожидается, будет дана оценка положения камеры по всем точкам).

Извлечение функций обрабатывает полезную информацию в изображениях. Представляющие интерес элементы варьируются от простых точечных элементов, таких как углы, до более сложных элементов, таких как края и капли, и даже сложных объектов, таких как дверные проемы и окна. Область вокруг каждой обнаруженной функции преобразуется в компактный дескриптор, который можно сопоставить с другими дескрипторами. Самый простой дескриптор объекта - это его внешний вид или интенсивность пикселей в участке вокруг особой точки.

Рис. 9: Сравнение различных методов извлечения признаков с использованием изображения, полученного из набора данных Oxford: (a) FAST, (b) HARRIS, (c) ORB, (d) SIFT, (e) SURF. Размер круга соответствует масштабу, а линия - ориентации (направлению сильного изменения интенсивности).

Сопоставление функций - это процесс индивидуального извлечения функций (дескрипторов) и сопоставления их в нескольких кадрах. Сопоставление признаков особенно полезно, когда существенные изменения во внешнем виде объектов происходят после наблюдения за ними в течение длинных последовательностей. Самый простой способ сопоставить признаки двух изображений - сравнить все дескрипторы признаков на первом изображении со всеми другими дескрипторами признаков на втором изображении с использованием меры сходства. Оценка позы рассчитывается на основе характеристик соответствия с помощью метода, называемого RANdom SAmple Consensus (RANSAC).

Рис. 10. Соответствующие пары дескрипторов.

Кадр, большинство функций которого сосредоточено в небольшой области, представляет меньший интерес для алгоритма, чем кадр с множеством функций, распределенных по большей площади, поскольку вероятность перекрытия функций меньше. Еще одна проблема с методами, основанными на признаках, заключается в том, что хранение обработанных признаков может быстро стать очень дорогостоящим. Однако, поскольку этот метод удаляет все данные, которые нельзя использовать (не характерные точки), он обычно быстрее, чем прямые методы. Можно реконструировать плотные карты на основе методов, основанных на объектах, оценивая положения камеры, чтобы найти то, что было в данном месте.

Прямые методы сравнивают целые изображения друг с другом, определяя, какие части сочетаются друг с другом. Они также могут создавать полуплотные 3D-карты в реальном времени на смартфоне, используя алгоритмы полуплотной фильтрации. Это означает, что они предоставляют больше информации об окружающей среде, что делает ее более интересной для использования в робототехнике или дополненной реальности, а также дает более значимое представление для человеческого глаза. Некоторые недостатки прямых методов заключаются в том, что они не могут очень хорошо обрабатывать выбросы, поскольку они всегда будут пытаться обработать их и внедрить в окончательную карту. Прямые методы также обычно медленнее, чем варианты на основе функций.

Замыкание петли

Обнаружение замыкания петли - это заключительный этап доработки, который жизненно важен для получения глобального согласованного решения SLAM, особенно при локализации и отображении в течение длительных периодов времени. Замыкание цикла - это процесс наблюдения одной и той же сцены по несмежным кадрам и добавление ограничения между ними, что значительно снижает накопленный дрейф в оценке позы.

Рис. 11. Карта до и после применения ограничений закрытия цикла.

Самая простая форма обнаружения замыкания цикла - сопоставление текущего кадра со всеми предыдущими кадрами с использованием методов сопоставления признаков. Этот подход является очень дорогостоящим в вычислительном отношении из-за того, что количество кадров резко увеличивается со временем, поэтому сопоставление текущего кадра со всеми предыдущими кадрами не всегда подходит для приложений реального времени. Одно из решений - определить ключевые кадры (подмножество всех предыдущих кадров) и сравнить текущий кадр только с этими ключевыми кадрами. Наиболее распространенный способ фильтрации кандидатов кадра закрытия цикла - использовать подход распознавания места, основанный на дереве словаря, в котором дескрипторы признаков ключевых кадров кандидатов иерархически квантованы и представлены «мешком визуальных слов» (BOW) .

Рис. 12: Дескрипторы функций сгруппированы вокруг слов в визуальном словаре. Кластеризация сводит проблему к подсчету, сколько раз встречается каждое слово в словаре. Наконец, изображение можно представить с помощью полученной гистограммы частот. Сходства изображений сравниваются по гистограммам.

Есть два типа проблем с замыканием цикла: ложноположительное (перцептивное искажение), когда два разных места воспринимаются как одно и то же, и ложноотрицательное (перцептивная изменчивость), когда одно место воспринимается как два разных места. Кривая точности-отзыва может использоваться для более точной количественной оценки производительности системы. Кривая подчеркивает компромисс между точностью (отсутствие ложных срабатываний при обнаружении) и отзывом (предсказуемая мощность).

Рис. 13. Настройка алгоритма для улучшения запоминания обычно приводит к большему количеству ложных срабатываний из-за повышенной чувствительности к сходству на изображении.

Внутренняя оптимизация

Поскольку дрейф оценки позы неизбежен, оптимизация позы камеры становится решающей для определения движения камер. Традиционно можно ввести расширенный фильтр Калмана (EKF) для минимизации шума в моделях движения (оценка будущего положения робота) и наблюдения (фактическое измерение). Это по-прежнему лучший выбор для небольших оценок из-за простоты реализации.

Альтернативный метод - использовать Bundle Adjustment (Оптимизация графика), совместно оптимизируя позу камеры и параметры трехмерной структуры, которые просматриваются и сопоставляются в нескольких кадрах, путем минимизации функции стоимости. Он черпает идеи из пересечения численных методов и теории графов. Bundle Adjustment все чаще предпочитают фильтрации, отчасти из-за присущей последней несогласованности. В сочетании с дополнительным отображением этот метод приводит к более высокой эффективности.

Next Frontiers for Visual SLAM

Разработка новых датчиков камеры и использование новых вычислительных инструментов часто были ключевыми драйверами для Visual SLAM. Существует множество альтернативных датчиков, которые можно использовать для Visual SLAM, например, камеры глубины, светового поля и событийные камеры, которые сейчас становятся массовым оборудованием.

Видеокамеры

Светоизлучающие камеры глубины не новость. Они стали обычным явлением с появлением консолей Microsoft Kinect для Xbox. Они работают в соответствии с разными принципами, такими как структурированный свет, время пролета, интерферометрия и кодированная апертура. Камеры со структурированным светом работают по принципу триангуляции, поэтому их точность ограничена расстоянием между камерами и проецируемым узором (структурированным светом). Напротив, точность времяпролетных (ToF) камер зависит только от измерительного устройства. Они, как правило, обеспечивают наивысшую точность дальности (менее миллиметра на нескольких метрах). Поскольку дальномерные камеры имеют собственный источник света, они также работают в темных и нетекстурированных сценах, что позволяет применять SLAM в динамических средах.

Камеры светового поля

В отличие от стандартных камер, которые регистрируют только интенсивность света, падающего на каждый пиксель, камера светового поля записывает как интенсивность, так и направление световых лучей. Камеры светового поля обладают рядом преимуществ по сравнению со стандартными камерами, такими как оценка глубины, шумоподавление, стабилизация видео, изоляция отвлекающих факторов и удаление зеркальности. Их оптика также предлагает более широкую апертуру и глубину резкости по сравнению с обычными камерами.

Камеры на основе событий

По сравнению с камерами на основе кадров, которые отправляют полные изображения с фиксированной частотой кадров, камеры на основе событий отправляют только локальные изменения на уровне пикселей, вызванные движением в сцене в момент их возникновения. Этот тип камеры может иметь временную задержку 1 мс, частоту обновления до 1 МГц, динамический диапазон до 140 дБ (по сравнению с 60-70 дБ у стандартных камер), потребляемую мощность 20 мВт (против 1,5 Вт у стандартных камер). стандартные камеры), а также очень низкие требования к полосе пропускания и памяти (поскольку передаются только изменения интенсивности). Эти свойства позволяют разрабатывать новый класс алгоритмов SLAM, которые могут работать в сценах с высокоскоростным движением.

Глубокое обучение

Исследователи уже показали, что можно обучить глубокую нейронную сеть регрессировать межкадровую позу между двумя изображениями, полученными от движущегося робота, непосредственно из исходной пары изображений, эффективно заменяя стандартную геометрию визуальной одометрии. Точно так же можно локализовать 6DoF камеры с регрессионным лесом и глубокими сверточными нейронными сетями, а также оценить глубину сцены (фактически, карты) из одного вида исключительно как функцию входного изображения.

Инструментарий

Приложение

Рис. 14. Сравнение детекторов функций: свойства и производительность.

Рис. 15. Некоторые популярные системы Visual SLAM.

Ссылки и ресурсы

Методы локализации

Маутц Р., Тилч С. (2011). Обзор оптических систем внутреннего позиционирования. Международная конференция по внутреннему позиционированию и навигации в помещениях, 2011 г.

Бисвас Дж. и Велозо М. (2014). Локализация мультисенсорного мобильного робота для различных сред. RoboCup 2013: Конспект лекций XVII Кубка мира роботов по информатике, 468–479.

Лю Т., Чжан В., Гу Дж. и Рен Х. (2013). Метод локализации мобильного робота на основе лазерного радара. Международная конференция IEEE по робототехнике и биомиметике (ROBIO), 2013 г.

Что такое SLAM?

С. Кадена, Л. Карлоне, Х. Каррильо, Ю. Латиф, Д. Скарамуцца, Дж. Нейра, И. Рейд и Дж. Дж. Леонард, «Прошлое, настоящее и будущее одновременной локализации и картирования: к эпохе устойчивого восприятия», в IEEE Transactions on Robotics 32 (6) pp 1309–1332, 2016

Фуэнтес-Пачеко, Хорхе, Хосе Руис-Асенсио и Хуан Мануэль Рендон-Манча. «Визуальная одновременная локализация и отображение: обзор». Обзор искусственного интеллекта 43.1 (2015): 55–81.

Датчики

Касл, Р., Кляйн, Г., и Мюррей, Д. (2010). Сочетание monoSLAM с распознаванием объектов для увеличения сцены с помощью переносной камеры. Image and Vision Computing, 28 (11), 1548–1556.

Чонг, Т., Тан, X., Ленг, К., Йогесваран, М., Нг, О., и Чонг, Ю. (2015). Сенсорные технологии и одновременная локализация и картографирование (SLAM). Процедуры информатики, 76, 174–179.

Лю, К., Ли, Р., Ху, Х., & Гу, Д. (2016). Извлечение семантической информации из визуальных данных: обзор. Робототехника, 5 (1), 8.

Юсиф К., Баб-Хадиашар А. и Хосейннежад Р. (2015). Обзор визуальной одометрии и визуального SLAM: приложения для мобильной робототехники. Интеллектуальные промышленные системы, 1 (4), 289–311.

Визуальная структура реализации SLAM

Зунино, Г., & Кристенсен, Х. (нет данных). Одновременная локализация и картографирование в домашних условиях. Документация конференции Международная конференция по объединению и интеграции мультисенсоров для интеллектуальных систем. MFI 2001 (Кат. №01TH8590).

Энгель, Якоб, Йорг Стаклер и Дэниел Кремерс. «Крупномасштабный прямой SLAM со стереокамерами». 2015 Международная конференция IEEE / RSJ по интеллектуальным роботам и системам (IROS) (2015): n. стр. Интернет.

Ху Б., Чжан X., Ян Г. и Джагер М. (2008). Объективная оценка 3D-реконструированных растений и деревьев по 2D-изображениям. Международная конференция по кибермирам, 2008 г.

Бейли Т. и Даррант-Уайт Х. (2006). Одновременная локализация и отображение (SLAM): часть I. Журнал IEEE Robotics & Automation Magazine, 13 (3), 108–117.

Бейли Т. и Даррант-Уайт Х. (2006). Одновременная локализация и отображение (SLAM): часть II. Журнал IEEE Robotics & Automation Magazine, 13 (3), 108–117.

Энгель Дж., Стаклер Дж. и Кремерс Д. (2015). Масштабный прямой SLAM со стереокамерами. Международная конференция IEEE / RSJ по интеллектуальным роботам и системам (IROS), 2015 г.

Next Frontiers for Visual SLAM

С. Кадена, Л. Карлоне, Х. Каррильо, Ю. Латиф, Д. Скарамуцца, Дж. Нейра, И. Рейд и Дж. Дж. Леонард, «Прошлое, настоящее и будущее одновременной локализации и картирования: к эпохе устойчивого восприятия», в IEEE Transactions on Robotics 32 (6) pp 1309–1332, 2016