Компьютерное зрение применяется в нескольких областях нашей жизни, но автономное вождение является одной из самых распространенных областей, где паноптические системы восприятия вождения используют технологию компьютерного зрения для работы и обеспечения хороших результатов.
Чтобы обеспечить наилучшие характеристики автономного вождения, Паноптические системы восприятия вождения должны обнаруживать дорожные объекты, сегментировать проезжую часть и определять полосы движения.

Документ поддержки: https://arxiv.org/abs/2108.11250

Какие решения, основанные на глубоком обучении, соответствуют этим требованиям?
существует несколько алгоритмов, созданных для выполнения этих требований (обнаружение транспортных объектов, сегментация проезжей части и обнаружение полос), но по отдельности.
Чтобы начать с обнаружения транспортных объектов, мы обнаружили Алгоритмы SSD-серии и YOLO-серии как решения для обнаружения объектов.
FCN, UNet и PSPNet используются для семантической сегментации.
Но для обнаружения полос SCNN и Enet-SAD используются для сегментации экземпляров дорожек. .
Мы обнаружили, что для многозадачных подходов, которые используются для получения лучших представлений с помощью совместно используемой информации между несколькими задачами,
Mask R-CNN расширяет возможности. Более быстрая R-CNN сочетает в себе высокую производительность, сегментацию экземпляров и эффективно решать задачи обнаружения объектов.
LSNet объединяет обнаружение объектов, сегментацию экземпляров и оценку позы как визуальное распознавание с учетом местоположения и использует унифицированное решение для решения этих задач.
и другие методы, такие как MultiNet с обнаружением объектов и сегментацией объектов. область движения одновременно и DLT-Net, которая выдвигает взаимосвязанные подструктуры между сегментацией области полосы движения и обнаружением границы полосы движения.

YOLOP: единовременное панорамное восприятие вождения:

YOLOP, простая и эффективная сеть с прямой связью, выполняет задачи обнаружения транспортных объектов, сегментации проезжей части и определения полосы движения.
Это более быстрое и точное решение, чем предыдущие работы.

Архитектура YOLOP:

  1. Кодировщик
    архитектура кодировщика включает два сетевых

a/ Магистральная сеть:
Основываясь на превосходстве YOLOv4 в обнаружении объектов, CSPDarknet используется в качестве магистрали для извлечения функций из изображений.

b/ Сеть на шее:

Это подразделение, отвечающее за разработку функций. Он состоит из модуля Spatial Pyramid Pooling (SPP), который генерирует и объединяет функции разных масштабов, и модуля Feature Pyramid Network (FPN) с ролью объединения функций на разных семантических уровнях и создания сгенерированных функций, содержащих несколько масштабов и несколько семантических уровней. информация

2. Декодер:

Три головки в сети декодеров используются для:
a/ обнаружения головки:
Подобно YOLOv4, YOLOP использует многомасштабную схему обнаружения на основе привязки. структура, называемая сетью агрегации путей (PAN), восходящая пирамидальная сеть функций. В то время как FPN в сети шеи передает семантические признаки сверху вниз, PAN передает признаки позиционирования снизу вверх. Комбинируя оба, чтобы получить лучший эффект слияния признаков, таким образом, используя многомасштабные карты слияния признаков в PAN для обнаружения.

b/ Голова сегмента управляемой области и головка сегмента линии полосы движения:
Голова сегмента области движения и головка сегмента линии полосы движения имеют одинаковую сетевую структуру, начиная с подачи нижнего уровня FPN в ветвь сегментации. , размером (Ш/8, В/8, 256).

После трех повышающих дискретизаций с использованием метода ближайшей интерполяции в нашем повышающем слое для снижения стоимости вычислений вместо процессов деконволюции восстановленная выходная карта объектов с размером (W, H, 2) представляет вероятность каждого пикселя во входном изображении. для проезжей части/линии полосы движения и фона.

3. Функция потери:

В соответствии с декодерами в сети многозадачность состоит из трех частей. Потеря обнаружения представляет собой взвешенную сумму потерь классификации, потери объекта и потери ограничивающей рамки, как в этом уравнении:

Потеря классификации используется для наказания за классификацию, потеря объекта для достоверности одного прогноза и потеря ограничивающей рамки, используемая для получения ошибки между предсказанной и наземной ограничивающей рамкой.
В то время как α1, α2, α3 можно настроить для баланса всех части общей суммы потерь.

Схема обучения:

Различные парадигмы пытаются обучить модель. Либо путем обучения от начала до конца, и три задачи могут быть изучены совместно, но когда все задачи связаны, или путем пошагового обучения нашей модели, на каждом этапе модель может сосредоточиться на одном или нескольких связанные задачи независимо от несвязанных, и модель все еще может адекватно учиться на каждой задаче с этой парадигмой.

Производительность YOLOP:
YOLOP протестирован на наборе данных BDD100K с использованием автономного вождения со 100 тыс. кадров изображений и аннотаций 10 задач, это самый большой набор видеоданных о вождении.
Для обнаружение объектов дорожного движения, модель YOLOP превосходит Faster R-CNN, MultiNet и DLT-Net по точности обнаружения и может делать выводы в режиме реального времени.

Что касается обнаружения объектов дорожного движения, модель YOLOP в сегментации проезжей части превосходит MultiNet, DLT-Net и PSPNet на 19,9%, 20,2% и 1,9% соответственно, а скорость вывода в 4–5 раз выше, чем у них.

Алгоритм YOLOP, используемый в паноптических системах восприятия вождения, является одним из лучших вариантов алгоритмов YOLO, использующих