Физические состязательные текстуры, которые обманывают отслеживание визуальных объектов

В то время как состязательные атаки доказали свою эффективность в цифровых доменах, немногие статьи показали эффективность таких подходов в физическом мире. Последние достижения, такие как противоборствующие очки (Sharif et al., 2016), патч (Brown et al., 2017) и черепаха (Athalye et al., 2018), генерируют физически реализуемых противников, но были только показаны работать над задачей классификации изображений. В обнаружении объектов есть и другие подходы, например, работа Эйкхольт и др. (2018) . Напротив, мы сосредоточили наши усилия на применении состязательных примеров в робототехнике.

Для некоторых начинающих по теме состязательного машинного обучения, вот две статьи, написанные несколько месяцев назад о состязательных атаках и защите.

В нашей статье Физические состязательные текстуры, которые обманывают визуальное отслеживание объектов мы предлагаем физические состязательные текстуры (PAT) - первую физически реализуемую состязательную атаку для моделей отслеживания объектов на основе регрессии. В частности, эта реализация атаковала GOTURN (Held et al., 2016), один из широко известных регрессионных трекеров.

Мы обучили трекер GOTURN на человеческих целях, где модель предсказывает местоположение цели в следующем кадре, учитывая ее местоположение в предыдущем кадре. Наша цель состояла в том, чтобы сгенерировать состязательные текстуры, которые сбивали с толку трекер при отображении в физическом мире (на телевизоре или печатных плакатах).

Мы также демонстрируем тематическое исследование, в котором состязательные текстуры использовались, чтобы обмануть алгоритм дронов, отслеживающий человека, который полагается исключительно на его визуальные данные. Мы использовали плакаты для атаки, потому что они являются одной из простейших форм отображения информации и могут быть реалистичным вектором атаки в реальном мире. Злоумышленник может разместить текстуры противника на стене, как граффити, и они могут нарушить алгоритмы отслеживания объектов, не вызывая подозрений у обычного человека.

Мы выполняем все наши атаки в программном обеспечении для моделирования Gazebo и демонстрируем моделирование в реальных условиях. Использование моделирования полезно, поскольку оно предоставляет нам любые типы маркировки, необходимые для выполнения атаки. В нашем случае наша цель - обновить только текстуру плаката. Это означает, что нам нужно знать расположение плаката на изображении, которое можно бесплатно получить в симуляторе. Это подчеркивает практичность нашего метода, поскольку реальные данные визуального отслеживания с текстурированным плакатом и его местоположением в изображении может быть трудно получить.

Знайте жертву: что такое GOTURN?

GOTURN - это модель отслеживания объекта (то есть модель для прогнозирования местоположения объекта на изображении в текущем кадре с учетом положения объекта в предыдущем кадре), работающая от сверточных нейронных сетей.

Вот как работает GOTURN: учитывая начальный кадр (т. Е. «Предыдущий кадр» на рисунке ниже) и местоположение объекта, который мы хотим отслеживать (т. Е. Ограничивающий прямоугольник), мы обрезаем изображение в этом месте, чтобы позволить модель знает что отслеживать. Затем, учитывая текущий кадр, мы также обрезаем кадр в месте, определенном ограничивающей рамкой из предыдущего кадра. Сделанное здесь предположение состоит в том, что движение отслеживаемого объекта между двумя последовательными кадрами невелико, и поэтому объект все еще должен существовать в пределах этого ограничивающего прямоугольника. При желании можно выбрать обрезку изображений как область, которая больше заданного ограничивающего прямоугольника. В этой статье мы называем изображение, обрезанное из предыдущего и текущего кадра, шаблоном и областью поиска соответственно.

Получив эти два кадрированных кадра, мы пропускаем их через сверточные слои для извлечения полезных функций как из шаблона, так и из области поиска. Затем эти функции объединяются перед передачей на полносвязные слои, которые регрессируют расположение шаблона в области поиска. Выходные данные сети предсказывают местоположение цели в кадре координат области поиска. Во время тестирования, когда у нас есть предсказанный ограничивающий прямоугольник, мы преобразуем этот ограничивающий прямоугольник обратно в исходный кадр координат изображения, устанавливаем текущий кадр как «предыдущий кадр», ждем, пока не появится следующий кадр (который будет новым « текущий кадр »), затем используйте эту ограничивающую рамку для обрезки.

Наш метод

В общем, методы состязательной атаки пытаются найти вход, который оптимизирует потери или целевые функции, которые могут варьироваться в зависимости от цели атакующего. Например, при создании противника в задаче классификации злоумышленник может выбрать вход в целевую модель, который максимизирует потерю кросс-энтропии, сохраняя при этом перцептивное сходство между состязательными и неконкурентными примерами. Однако сгенерированные противники обычно не инвариантны к различным преобразованиям (например, состязательное изображение может перестать быть состязательным после небольшого поворота).

Наша атака основана на схеме Ожидание превыше трансформации (Athalye et al., 2018), цель которой - найти пример состязательности, который минимизирует ожидаемые потери при различных трансформациях, с надеждой на то, что в конечном итоге создать противника, устойчивого к этим преобразованиям. В наших экспериментах мы предполагаем наличие белого ящика для модели жертвы.

На рисунке ниже показан наш метод. Начиная с исходного изображения текстуры, которое проецируется на плакат в смоделированной сцене, злоумышленник сначала создает сцену, в которой отслеживаемый объект помещается рядом с текстурой. Затем камеру можно поместить в среду моделирования, чтобы сделать снимок таким образом, чтобы текстура и отслеживаемый объект находились внутри кадра камеры. Это первое изображение - «предыдущий кадр».

Чтобы получить «текущий кадр», мы можем применить небольшое случайное движение к камере и целевому объекту, чтобы имитировать движение, при этом гарантируя, что и текстура, и целевой объект все еще находятся в кадре. Поскольку мы все делаем в симуляции, у нас есть привилегия получить местоположение (т. Е. Ограничивающую рамку) отслеживаемого объекта в кадре.

В наших экспериментах трансформации, которые мы рандомизируем, включают позу камеры, позу объекта, освещение, фон (т.е. среду моделирования) и отслеживаемый объект (например, различные модели людей и роботов). Мы выбрали рандомизацию цели, потому что хотим, чтобы атака сработала, не требуя специальных знаний о отслеживаемом объекте. Более конкретно, мы хотели бы обмануть трекер, независимо от того, отслеживается ли Алиса или Боб в любой момент времени.

Мы повторяем эти процессы, чтобы получить несколько последовательных пар кадров, чтобы сформировать мини-пакет. Затем мы передаем этот мини-пакет в модель GOTURN и вычисляем ожидаемые убытки, которые мы определяем (подробнее об этом в следующем разделе). Затем мы можем выполнить обратное распространение через модель GOTURN и вычислить градиент ожидаемых потерь по отношению к входным данным и обновить нашу текстуру, используя методы оптимизации на основе градиента (например, градиентный спуск).

Важно отметить, что мы обновляем только текстуру, а не все изображение. Благодаря симулятору мы можем выяснить, какие пиксели изображения принадлежат текстуре в симуляции, а какие заблокированы отслеживаемым объектом. Затем весь процесс повторяется в течение фиксированного количества итераций или до тех пор, пока противник не будет найден в соответствии с некоторыми показателями (например, среднее пересечение по объединению).

Целевые функции

В задаче классификации изображений успешная атака обычно означает, что злоумышленник находит пример состязания, который неверно классифицируется целевой моделью. Так что же значит обмануть модель отслеживания объекта? В своей работе мы считаем атаку успешной, если трекер в конечном итоге теряет отслеживание цели и вместо этого начинает отслеживать противника. Есть много способов добиться этого, и мы можем немного поиграть с размерами ограничивающей рамки.

Мы экспериментировали с различными нецелевыми и целевыми потерями. Мы также предлагаем новую управляемую группу потерь, которая поощряет определенные состязательные атрибуты, а не строгие результаты. Таким образом, управляемый подход действует как золотая середина между нецелевыми и целевыми атаками. Кроме того, мы также экспериментировали с гибридными потерями, которые представляют собой взвешенные линейные комбинации различных потерь. Ниже приведены определения различных потерь, которые мы используем:

нецелевые (нет) потери: нацелены на увеличение потери тренировок GOTURN
target-shrink (t-) loss: стремится сжать и переместить прогнозируемую ограничивающую рамку в нижний левый угол области поиска.
целевая (t =) потеря: стремится заблокировать прогнозируемую ограничивающую рамку с точным целевым местоположением в предыдущем кадре.
target-grow (t +) loss: стремится увеличить прогнозируемую ограничивающую рамку до максимального размера области поиска.
управляемое сжатие (ga-) потеря: побуждает область прогнозируемого ограничивающего прямоугольника уменьшаться по сравнению с исходной
управляемая потеря (ga +): способствует увеличению области прогнозируемого ограничивающего прямоугольника по сравнению с исходным значением.

Обратите внимание, что приведенные выше потери являются примерами, возможны другие потери. Другой пример управляемой потери - это максимизация или минимизация нормы выхода. Кроме того, подобно другим атакам, которые направлены на сохранение перцептивного сходства между несостязательными и состязательными примерами, мы также попытались добавить ограничение перцептивного сходства к целевой функции. Однако это необязательно, и можно или не включить его, в зависимости от цели атаки.

Визуальное сервоуправление

В области робототехники визуальное сервоуправление - это метод управления роботом с помощью визуальной обратной связи. Визуальное сервоуправление использовалось во многих реальных приложениях. Например, одна из функций, предлагаемых сегодня многими производителями беспилотных летательных аппаратов, - это функция автономного слежения за человеком. Одна из возможных реализаций технологии слежения за человеком - использовать ограничивающую рамку из моделей отслеживания, таких как GOTURN, в качестве обратной связи для контроллера. Контроллер может стремиться поддерживать размер ограничивающей рамки и центрировать ее положение, управляя исполнительными механизмами робота.

В наших экспериментах мы использовали Parrot Bebop 2 и реализовали ПИД-регулятор для отслеживания цели. Чтобы сгладить ограничивающую рамку, мы применили экспоненциальный фильтр перед передачей его в качестве входного сигнала в контроллер, что добавляет дополнительную проблему при атаке всего конвейера сервоуправления.

Полученные результаты

Сначала мы оцениваем наши состязательные текстуры в симуляции. Как мы видим ниже, трекер успешно отслеживает цель, когда она движется перед случайно сгенерированной текстурой. Тем не менее, когда он видит сгенерированную текстуру противоборства, трекер быстро теряет цель и вместо этого начинает блокироваться на текстуре противоборства.

Мы также оценили сгенерированного противника в реальном мире, когда камера неподвижна и движется (т. Е. Движется). Ниже приведены некоторые примеры как стационарной, так и сервоприводной работы в помещении. В этих экспериментах все текстуры отображаются на экране телевизора.

Ниже приведены некоторые из экспериментов, которые мы провели на открытом воздухе. Обратите внимание, как плакат теперь печатается, а не отображается на экране телевизора.

Кроме того, мы также обнаружили разницу в производительности между использованием нецелевых, целевых, управляемых и гибридных потерь. Управляемые потери обычно достигаются более быстрой сходимостью, возможно, из-за его гибкости за счет ослабления силы противника после большего количества итераций по сравнению с нецелевыми и целевыми потерями. При оценке гибридных потерь мы обнаружили, что одни комбинации различных потерь приносят пользу, а другие - нет. Например, комбинация потерь (nt) и (t =) приводит к лучшей общей производительности по сравнению с использованием только (nt) или ( t =) только варианты.

Наконец, мы провели исследование абляции переменных кондиционирования EOT, чтобы определить, какое преобразование оказывает наибольшее влияние на создание надежных текстур противоборства. Это похоже на подходы к рандомизации доменов в sim2real исследованиях - не все домены одинаковы. Хотя мы обнаружили, что вариации освещения, позы камеры и позы плаката оказываются эффективными, другие переменные, такие как фон, поза цели и ее внешний вид, не так важны. Пожалуйста, смотрите нашу статью для количественной поддержки.

Заключение

В этой работе мы предложили систему для генерации физических состязательных текстур (PAT) и успешно сгенерировали состязательные текстуры, обманывающие популярную модель отслеживания объектов. Мы также демонстрируем, что эти атаки физически осуществимы, даже если они были созданы исключительно на основе моделирования.

У PAT все еще есть некоторые ограничения. Например, наши PAT могут не работать слишком хорошо при большом количестве отражений. Таким образом, создание противников, устойчивых к спекуляциям, является интересным направлением исследований в будущем.

Мы вводим понятие управляемой потери, которое предлагает более быструю сходимость за счет силы противника, что может быть полезно, если скорость сходимости является важным критерием атаки. Наконец, мы изучили влияние различных переменных кондиционирования EOT, чтобы атака могла быть проведена более эффективно.

Наша цель - повысить осведомленность о том, что существующие системы отслеживания на основе видения уязвимы для примеров враждебности. Мы рекомендуем интегрировать дополнительные датчики, такие как GPS или IMU, для безопасности. По мере того как мы показываем, как состязательные примеры могут негативно повлиять на реализацию отслеживания в реальном мире, мы надеемся, что другие исследователи исследуют слабость других роботизированных систем на состязательных примерах, чтобы разработать более надежные подходы.

Спасибо Anqi Xu, Peter Henderson и Minh Dao за ценные комментарии и иллюстрации.

Первоначально опубликовано на https://www.elementai.com.