Навигация по перекресткам с помощью автономных транспортных средств с использованием глубокого обучения с подкреплением

Изучение беспилотных автомобилей больше не является простым процессом определения светофора или дорожных знаков, оно распространилось на несколько сцен из жизни. Одним из важнейших стандартов измерения автономных транспортных средств является то, могут ли автономные транспортные средства проезжать перекрестки без сигналов. В этой статье авторы предлагают нам новую стратегию использования глубокого обучения с подкреплением. По сравнению с текущими методами, основанными на правилах, что означает хранение и манипулирование знаниями, а также полезную интерпретацию информации, авторы показывают нам, что с помощью глубокого обучения с подкреплением можно добиться более высокой производительности в отношении времени выполнения задачи, показателя успешности достижения цели и т. Д. средняя вероятность успеха может достигать 99,64%, а время, необходимое для успешного прохождения маршрута, сокращается в среднем до 5,5 секунды. Однако они указывают на то, что для повышения его надежности необходимо приложить дополнительные усилия.

1. ВВЕДЕНИЕ:

Даже для водителей-людей 20% всех аварий происходят на перекрестках [1]. Можно только представить, насколько сложно беспилотным транспортным средствам хорошо этому научиться. Чтобы успешно пройти перекресток, необходимо сделать три вещи:

Понять динамику автомобиля
Интерпретировать намерения других водителей
Ведите себя предсказуемо, чтобы у других дисков было время принять соответствующие меры.

Это должно уравновесить многочисленные противоречивые цели, такие как безопасность, эффективность и минимизация нарушения дорожного движения.

Существует две группы основанных на правилах методов, которые применяются для обработки пересечений: кооперативные методы [2] и эвристические методы [3]. Совместные методы не масштабируются до общей обработки перекрестков из-за требования связи между транспортными средствами. Самым современным является метод, основанный на правилах, основанный на времени до столкновения (TTC) [4]. TTC имеет множество преимуществ, таких как надежность, но все же имеет ограничения. Во-первых, модели TTC игнорируют почти всю информацию о намерениях водителя из-за предположения о постоянной скорости. Во-вторых, непредсказуемое поведение водителей-людей усложняет использование алгоритмов, основанных на правилах. Наконец, есть много случаев, когда использование TCC может быть излишне осторожным, что приведет к ненужным задержкам.

Как отметили авторы, для обработки перекрестков используются в основном три метода на основе машинного обучения. Это имитационное обучение, онлайн-планирование и офлайн-обучение. Авторы выбрали метод автономного обучения и объяснили, почему имитационное обучение и онлайн-планирование не подходят. Для имитационного обучения он не может предложить решения, если агент оказывается в состоянии, которому его не учили. Онлайн-планировщики полагаются на наличие точной генеративной модели. На рисунке 1 показан процесс пересечения оживленных перекрестков.

2. ПОДХОД

В этом разделе авторы рассматривают обработку пересечений как проблему обучения с подкреплением. Они используют сеть Deep Q Network (DQN) для изучения Q-функции значения действия состояния. Подход разделен на пять частей:

Обучение с подкреплением (RL).

Эта часть представляет собой обучение с подкреплением, и я буду использовать самый простой способ описать процесс обучения с подкреплением. В модели RL агент в состоянии st выполняет действие в в соответствии с политикой p в момент t . Агент переходит в состояние st +1 и получает вознаграждение rt. Это сформулировано как Марковский процесс принятия решений (MDP), и Q-обучение используется для выполнения оптимизации.

Q-обучение.

Эта часть знакомит с Q-обучением, и я рекомендую читателям сначала изучить Q-обучение, которое упростит чтение статьи. Суть Q-обучения заключается в использовании среднего значения функции ценности действия Q p (s, a) для оценки фактического значения. Он будет обновлен при добавлении данных.

Динамический пропуск кадров.

Динамический пропуск кадров - это упрощенная версия опций [5], она позволяет агенту выбирать действия в течение длительного времени, что сокращает время обучения агента.

Воспроизведение приоритетного опыта.

Авторы используют воспроизведение опыта, чтобы нарушить корреляцию между последовательными шагами агента. Предыдущие траектории сохраняются в буфере воспроизведения опыта, и это означает, что важные последовательности, которые происходят реже, могут быть отобраны. Это позволит избежать вычисления рейтингового списка, а выборки для балансировки вознаграждения по траекториям заменят вычисления.

Представления о состоянии и действии.

Поскольку использование датчиков в автономных транспортных средствах, допускается множество представлений о состоянии и действиях. В этой статье авторы представляют два представления. Первый - это последовательные действия, при которых агенту предоставляется желаемый путь, и агент определяет ускорение, замедление или поддержание скорости. Второй - Time-to-Go, где агент определяет время, когда нужно подождать или уйти. Первое может дать нам возможность наблюдать, может ли разрешение более сложного поведения принести пользу, второе фокусируется на времени отправления и позволяет нам исследовать, как изменение времени отправления может повлиять на производительность.

3. ЭКСПЕРИМЕНТЫ.

В этой части авторы тренируют два DQN (последовательные действия и время до перехода) на основе множества сценариев пересечения. Они сравнивают производительность с эвристическим алгоритмом Time-to-Collision (TTC). Политика TTC использует единый порог, чтобы решить, когда переходить, и служит отправной точкой в анализе авторов. Авторы используют симулятор Sumo [6] для проведения экспериментов. Этот пакет моделирования помогает пользователям моделировать различные условия дорожного движения в различных сценариях. Он помогает моделировать дорожные сети, дорожные знаки, светофоры, множество транспортных средств, а также может облегчить онлайн-взаимодействие и управление транспортными средствами. Существует пять различных сценариев пересечения, как показано на рисунке 2. Авторы приводят ряд параметров для настройки сценариев и четыре метрики для оценки метода: процент успешных попыток, процент столкновений, среднее время и среднее время торможения. Для TTC и Time-to-Go DQN все представления состояний игнорируют окклюзию и предполагают, что все автомобили всегда видны.

Сеть последовательного действия - это полносвязные сети с дырявыми функциями активации ReLU. И есть 3 скрытых слоя по 100 узлов каждый и последний линейный слой с 12 выходами, которые соответствуют трем действиям (ускорение, замедление, поддержание скорости) в четырех временных масштабах (1, 2, 4 и 8 временных шагов). Для сети Time-to-Go DQN используется сверточная нейронная сеть с двумя сверточными слоями и одним полностью связанным слоем. Первый сверточный слой имеет 32 фильтра 6 × 6 с шагом два, второй сверточный слой имеет 64 фильтра 3 × 3 с шагом 2. Полностью связанный слой имеет 100 узлов. Все слои используют дырявые функции активации ReLU. Последний слой линейного вывода имеет пять выходов: одно действие go и действие wait с четырьмя временными шкалами (1, 2, 4 и 8 временных шагов). В этом эксперименте буферы воспроизведения опыта хранят 100 000 временных шагов, и есть два буфера для коллизий, а также для успехов и тайм-аутов. В качестве награды авторы использовали +1 за успех, -10 или за столкновение и -0.01 за стоимость шага.

4. РЕЗУЛЬТАТ

Результаты можно увидеть в Таблице 1, Рисунке 3, Рисунке 4. И мы можем видеть особенности:

Метод TTC не имел коллизий ни в одном из сценариев. Среди методов DQN, DQN Time-to-Go имел значительно более низкую частоту конфликтов, чем DQN-sequence.
Методы DQN значительно более эффективны в достижении цели, чем TTC. В среднем DQN Time-to-Go был на 28% быстрее в достижении цели, чем TTC, а DQN Sequential был на 19% быстрее, чем TTC. Это означает, что методы DQN могут уменьшить пробки.
За исключением одного случая, DQN Time-to-Go дает лучшие результаты с наивысшими показателями успешности, как показано на рисунке 3.

Хотя DQN значительно более эффективны, они не подходят для минимизации количества коллизий, как TTC.
На рисунке 4 мы видим, что производительность DQN доминирует над производительностью TTC, поскольку авторы находят компромисс между скоростью и безопасностью. Это говорит о том, что возможно создание алгоритма с нулевой частотой конфликтов.

Из-за того, что DQN не обеспечивает нулевой процент столкновений, авторы пытаются найти способ решить эту проблему, потому что нулевой процент столкновений очень важен. Авторы подозревают, что обучение по нескольким сценариям улучшит производительность в соответствии с основными принципами многозадачного обучения [7]. На рисунке 5 показана производительность передачи, а конкретные данные можно увидеть в таблицах II и III, которые помогут авторам понять, насколько хорошо система глубокой сети может обобщать. Мы видим, что более сложные сценарии хорошо переносятся в более простые области, но изменение количества полос создает помехи.

Затем авторы проводят качественный анализ. В ходе анализа авторы указывают, что DQN могут точно предсказать, что движение на дальних полосах движения будет преодолено к тому времени, когда эго-машина подъедет к полосе. Кроме того, водитель DQN может предвидеть, будет ли у встречного транспорта достаточно времени для торможения или нет. Авторы также дают объяснение причин столкновений. Столкновения происходят из-за эффектов дискретизации, когда автомобиль почти не попадает в полосу встречного движения. Авторы также указывают, что TTC часто ждет, пока дорога полностью не освободится, как показано на Рисунке 6, и этого недостаточно для практических условий.

5. ЗАКЛЮЧЕНИЕ

Как упомянули авторы, для этой статьи есть три вклада. Первый вклад - это новая идея объединения нескольких недавних методов глубокого обучения для повышения производительности. Второй вклад - это анализ того, насколько хорошо DQN работает по сравнению с TTC в пяти различных сценариях моделирования перекрестков. Третий вклад - это анализ того, насколько хорошо обученные политики DQN переносятся в разные сценарии.

На мой взгляд, в будущем еще нужно улучшить две вещи. Во-первых, это архитектура сверточных нейронных сетей. В более сложных сценариях более глубокие нейронные сети могут быть намного лучше. Мы можем найти тот же вывод в ссылке [8], где компания, занимающаяся самоуправлением, рассматривает глубокое обучение как единственный жизнеспособный способ создать надежный беспилотный автомобиль, потому что существует множество условий и много вещей, которые являются сложными и нюансированными. Другой - о частоте столкновений. Я думаю, что должен быть другой способ снизить количество столкновений до нуля, потому что безопасность - самый важный аспект для беспилотных автомобилей. Мы не можем достичь этой цели только с помощью модели или алгоритма, и есть другие способы решить эту проблему. В Audi инженеры применили радар миллиметрового диапазона, лазерный радар, камеру, ультразвуковой датчик и т. Д., Чтобы произвести взаимную компенсацию и проверку, что также может помочь автомобилю принять правильное решение.

6. СПРАВОЧНАЯ ИНФОРМАЦИЯ

[1] Национальная администрация безопасности дорожного движения, Факты безопасности дорожного движения, Tech. Представитель DOT HS 812 261, 2014. [Онлайн]. Доступно: «https://crashstats.nhtsa.dot.gov/Api/Public/Publication/812261
[2] Hafner, Michael R., et al. Совместное предотвращение столкновений на перекрестках: алгоритмы и эксперименты. Транзакции IEEE по интеллектуальным транспортным системам 14.3 (2013): 1162–1175.
[3] Алонсо, Хавьер и др. Автономные системы управления транспортными средствами для безопасного проезда на перекрестках. Транспортные исследования, часть C: новые технологии 19.6 (2011): 1095–1110.
[4] Миндерхоуд, Мишель М. и Пит Х. Л. Бови. Меры по увеличению времени до столкновения для оценки безопасности дорожного движения. Анализ и предотвращение несчастных случаев 33.1 (2001): 89–97.
[5] Саттон, Ричард С. и Эндрю Дж. Барто. Обучение с подкреплением: введение. Vol. 1. №1. Кембридж: MIT press, 1998.
[6] Krajzewicz, Daniel, et al. Последние разработки и приложения SUMO-Simulation of Urban Mobility. Международный журнал достижений в области систем и измерений 5.3 и 4 (2012 г.).
[7] Каруана, Рич. Многозадачное обучение. Учимся учиться. Springer US, 1998. 95–133.

Источник: https://arxiv.org/abs/1705.01196

Автор: Шиксин Гу | Рецензент: Хао Ван