Статья: Universal Adversarial Training
Ссылка: https://ojs.aaai.org/index.php/AAAI/article/view/6017/5873
Авторы: Али Шафахи, Махьяр Наджиби, Чжэн Сюй, Джон Дикерсон, Ларри С. Дэвис, Том Гольдштейн
Теги: Состязательная атака, Универсальная атака , Атака белого ящика
Код: -
Разное. информация: принято на AAAI’20

Что?

В этой статье авторы предлагают оптимизированный способ поиска универсальных состязательных примеров (впервые представленный в Moosavi-Dezfooli et al. [1]) для данной модели. Авторы также предлагают недорогой алгоритм для защиты модели от таких возмущений.

Почему?

Универсальные состязательные возмущения (UAP) дешевы — можно использовать один шум, чтобы модель неправильно маркировала множество изображений. (В отличие от обычных атак, при которых возмущения генерируются для каждого изображения. Однако они более эффективны). Также обнаружено, что UAP передаются между разными моделями, поэтому их также можно использовать в настройках атаки черного ящика. Поэтому важно их изучить.

Предпосылки:

UAP против враждебного возмущения. Чтобы атаковать заданную модель, в обычном случае враждебной атаки мы находим уникальную дельту для каждого изображения, чтобы модель неверно классифицировала его. В случае UAP мы находим дельту и используем ее для всех изображений.

Вычисление UAP в [1]: UAP впервые представлен в [1]. Это простая техника, однако нет никаких гарантий сходимости. Авторы перебирают изображения и продолжают обновлять дельту до тех пор, пока ξ процентов изображений не будут классифицированы неправильно. И обновление в каждой итерации вычисляется с помощью DeepFool [2]. Формулировка и алгоритм атаки показаны ниже.

Обучение со стороны злоумышленников. Чтобы сделать модели устойчивыми к атакам со стороны злоумышленников, Мадри и др. предложили обучение со стороны злоумышленников, при котором на каждой итерации мы генерируем примеры со стороны злоумышленников, затем вычисляем для них потери, а затем обновляем весовые коэффициенты для этих потерь. Формулировка следующая. (Z — искаженное изображение)

Мы все сделали с предварительными условиями. Помимо этого, я расскажу о вкладе газеты.

Как?

Улучшенное вычисление UAP: в этой статье авторы упростили формулировку, чтобы найти дельту, которая максимизирует потери. Таким образом, мы можем обновить δ с помощью оптимизатора. Формулировка потерь выглядит следующим образом. Поскольку потери не ограничены сверху, авторы предлагают усеченную версию этих потерь. Эта формулировка ищет универсальное возмущение, которое максимизирует потери при обучении и, таким образом, заставляет изображения относиться к неправильному классу.

Вышеупомянутая задача оптимизации может быть решена методом стохастического градиента, получить градиент потерь относительно δ, скажем, g, обновить δ до δ + l.r.*g, а затем спроецировать обратно δ на ε l_p ball.

Улучшенное состязательное обучение UAP: аналогичным образом авторы предлагают найти UAP для данной партии и обучить модель с возмущенными входными данными (x_i + δ).

Авторы также исследуют случай быстрого состязательного обучения, когда веса и δ одновременно поддерживаются. Дает достаточно приличную производительность. Мы можем видеть алгоритмы для обоих стилей состязательного обучения UAP на рисунках ниже.

Полученные результаты:

  • В наборе данных CIFAR-10 с архитектурой WideResnet-32 для ε = 8 42,56% для возмущения SGD, 13,30% для ADAM и 13,79% для PGD. Точность чистого теста WRN составляет 95,2%.
  • На приведенном ниже наборе рисунков мы можем увидеть, как выглядит UAP для CIFAR-10, для нормально обученных и надежно обученных моделей. Надежные модели, по-видимому, имеют низкочастотные UAP, чем чистые модели. Кроме того, UAP может сильно различаться в зависимости от оптимизатора.

  • Формулировка атаки более успешна, чем предыдущие методы, как видно из нижней левой таблицы.
  • В правой таблице ниже показано, что состязательное обучение, предложенное в статье, более устойчиво к возмущениям UAP, а также имеет лучшее поведение при обобщении. Интересно отметить, что наиболее распространенный метод противоборствующей подготовки (обозначаемый PGD) не совсем устойчив к UAP.

  • UAP, сгенерированные из модели, обученной UAP, значительно отличаются от недорогой модели, обученной UAP. Почему-то кажется, что UAP естественной модели (не обученной со стороны противника) выглядит высокочастотным, в то время как модель, обученная UAP, имеет самую низкую частоту, а UAP недорогой модели находится где-то посередине.

Комментарии:

В целом интересная газета. Формулировка для вычисления UAP, представленная в этой статье, эффективна с точки зрения вычислений, а возмущения более эффективны. Интересно, как норма UAP, сгенерированных с помощью этого метода, сравнивается с UAP, рассчитанными с использованием [1].

Этот метод обучения, по-видимому, имеет лучшую чистую тестовую производительность, чем обычное состязательное обучение, одна вещь, которую я хотел бы, чтобы они рассмотрели, это то, насколько эффективно это состязательное обучение UAP против обычных атак уклонения.

Библиография:
[1] — Moosavi-Dezfooli, Seyed-Mohsen, et al. «Универсальные враждебные возмущения». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2017.
[2] — Мусави-Дезфули, Сейед-Мохсен, Альхусейн Фавзи и Паскаль Фроссар. «Deepfool: простой и точный метод обмана глубоких нейронных сетей». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2016.