Эта запись также появляется в нашем Блоге Trustable AI.

По состоянию на середину 2017 года уже существует множество предложений обмануть DNN с помощью состязательного примера. Papernot et al (2016) предложили самую мощную на сегодняшний день такую ​​атаку против классификаторов изображений, используя переносимость. Согласно проведенным экспериментам, этот метод может обеспечить почти 90% ошибок классификации для сервисов DNN, размещенных на Amazon и Google. Этот практический пример показывает, что атака черного ящика осуществима.

Состязательный пример — это набор данных, который был создан преднамеренно, чтобы обмануть DNN. Эта тема началась, когда Szegedy et al (2013) обнаружили, что для DNN, обученных с помощью ImageNet или AlexNet, часто небольшое изменение на входе может привести к огромным различиям на выходе.

Например, предположим, что модель правильно распознает изображение грузовика, может потребоваться изменить относительно небольшое количество пикселей на изображении, чтобы модель классифицировала его по-другому, а изменения настолько малы по сравнению с изображением, что человеческий глаз вряд ли распознает их. различия.

Это будет запись в блоге, состоящая из двух частей, о последних разработках состязательных примеров в DNN. Мы начнем с упоминания важных свойств этих примеров, указывая читателям на два алгоритма их нахождения и некоторые опубликованные стратегии защиты. Во второй части мы собираем некоторые важные события в этом отношении с 2017 года. Читатели также могут ознакомиться с отличным введением Open AI Атака на машинное обучение с помощью состязательных примеров.

Важные свойства состязательных примеров

В Szegedy et al (2013) есть несколько основных выводов:

  1. ГНС, обученные на разных участках одного и того же набора данных с разной сетевой архитектурой, предположительно являются разными сетями. Однако опытным путем установлено, что часто они вводятся в заблуждение одним и тем же состязательным примером. Другими словами, состязательный пример, найденный для одной DNN, часто может быть перенесен в другую DNN по той же проблеме.
  2. Поиск враждебного примера — это, по сути, проблема оптимизации. Нужно просмотреть точку входных данных с помощью алгоритмов. Нелегко будет найти его, случайным образом искажая данные.

Пока что мы можем объяснить существование состязательных примеров тем, что они являются результатами линейных вычислений в DNN. Это объясняется в Goodfellow et al (2014) примерно следующим образом. Линейные расчеты в DNN представляют собой такие уравнения, как , где и - вес и смещение соответственно, - вход, а выход - стимуляция. Здесь и — оба вектора, а — внутреннее произведение двух векторов. Поэтому, когда параллельно , ​​небольшое количество изменений, представленных can, приводит к огромным различиям в выходе, потому что может быть большим. Когда размерность и велика (когда имеется много функций модели), она достаточно велика, чтобы вытолкнуть вывод за границу решения.

Такой взгляд на состязательные примеры объясняет несколько вещей:

  • Общие методы регуляризации, такие как отсев, релевантность, модельное среднее, вряд ли будут эффективны против враждебных примеров.
  • Существование состязательных примеров является результатом геометрических свойств границы решения, что также объясняет их переносимость.
  • Для нелинейных моделей, таких как сеть RBF, состязательные примеры не так эффективны, как для линейных моделей. Конечно, обучать нелинейные модели гораздо сложнее. Поэтому программисты моделей могут столкнуться с выбором линейных моделей, которые легче обучать и которые потенциально нестабильны, или нелинейных моделей, которые сложно обучать, но они более надежны.

Алгоритмы поиска состязательных примеров

Пока есть два основных алгоритма поиска состязательных примеров:

  • Метод быстрого знака градиента (FGSM) в Goodfellow et al (2014).
  • Подход на основе карты значимости (JSMA) на основе якобиана в Papernot et al (2016).

Потоковая модель эксплуатации DNN с состязательными примерами обычно имеет следующие категории (Papernot et al (2016)).

Состязательные цели (от простого к сложному)

  1. Снижение уверенности.
  2. Неправильная классификация: изменение выходных данных.
  3. Целенаправленная неправильная классификация: создайте ввод с определенным выводом.
  4. Неправильная классификация источника/цели: изменение определенного ввода на определенный вывод.

Сопротивляющие возможности (от большего к меньшему)

  1. Архитектура и обучающие данные
  2. Архитектура
  3. Образец обучающих данных
  4. Оракул
  5. Образцы

В рамках этой модели потоков все исследования, о которых мы упоминали до сих пор, имеют враждебную цель (4). Что касается их противоборствующих возможностей, все сценарии до 2015 года требуют (2), что означает, что злоумышленникам необходимо знать архитектуру целевой сети, а с 2016 года требуется (4), что означает, что злоумышленникам нужен только доступ к некоторым результатам прогнозирования. .

Обратите внимание, что с помощью сценариев в Tramer et al (2016) злоумышленник может получить информацию об архитектуре целевой сети, а затем применить эту информацию для создания враждебных примеров.

Стратегии защиты

Существуют две широкие категории защиты: реактивная и упреждающая.

  • Реактивный: добавьте защиту от враждебного примера после обучения модели. Многие результаты касаются того, как отфильтровать состязательные примеры из входных данных модели.
  • Проактивный: тренируйте модель, чтобы она была более устойчивой к враждебным примерам.

Два основных подхода к проактивной защите:

  • Состязательное обучение в Shaham et al (2015) использует сгенерированные состязательные примеры для переобучения модели, тем самым уменьшая изменения, вызванные возмущением. Такие переобученные модели более стабильны локально и генерировать для них состязательные примеры будет сложнее.
  • Защитная дистилляция в Papernot et al (2016) возвращает векторы вероятности, созданные моделью, обратно самой себе для дистилляции весов, в результате чего границы решений становятся более гладкими и труднее найти состязательные примеры.

До сих пор более эффективным подходом, по-видимому, является защитная дистилляция, которая, как можно показать, эффективна против FGSM и JSMA. Это было до того, как Papernot et al (2016) и Carlini et al (2016) объявили о новых сценариях атаки. Papernot et al (2017) пытается ужесточить защитную дистилляцию, но результаты ограничены.

использованная литература

  • Карлини, Н., и Вагнер, Д. (2016). На пути к оценке надежности нейронных сетей. Получено с http://arxiv.org/abs/1608.04644
  • Гудфеллоу, И. Дж., Шленс, Дж., и Сегеди, К. (2014). Объяснение и использование состязательных примеров, 1–11. Получено с http://arxiv.org/abs/1412.6572
  • Папернот, Н., и Макдэниел, П. (2017). Расширение оборонительной дистилляции. arXiv. Получено с http://arxiv.org/abs/1705.05264
  • Папернот Н., Макдэниел П., Гудфеллоу И., Джа С., Челик З. Б. и Свами А. (2016). Практические атаки черного ящика против машинного обучения. https://doi.org/10.1145/3052973.3053009
  • Папернот, Н., Макдэниел, П., Ву, X., Джха, С., и Свами, А. (2016). Дистилляция как защита от враждебных возмущений против глубоких нейронных сетей. Материалы — Симпозиум IEEE по безопасности и конфиденциальности, 2016 г., SP 2016, 582–597. https://doi.org/10.1109/SP.2016.41
  • Папернот Н., Макдэниел П., Джа С., Фредриксон М., Челик З. Б. и Свами А. (2016). Ограничения глубокого обучения в состязательных условиях. Материалы — Европейский симпозиум IEEE по безопасности и конфиденциальности, 2016 г., EURO S и P 2016, 372–387. https://doi.org/10.1109/EuroSP.2016.36
  • Шахам, У., Ямада, Ю., и Негабан, С. (2015). Понимание состязательного обучения: повышение локальной стабильности нейронных сетей посредством надежной оптимизации, 1–12. Получено с http://arxiv.org/abs/1511.05432
  • Сегеди, К., Заремба, В., Суцкевер, И., Бруна, Дж., Эрхан, Д., Гудфеллоу, И., и Фергус, Р. (2013). Интересные свойства нейронных сетей. https://doi.org/10.1021/ct2009208
  • Трамер Ф., Чжан Ф. и Джуэлс А. (2016). Кража моделей машинного обучения через API прогнозирования. В Материалы 25-го симпозиума по безопасности USENIX (стр. 601–618). https://doi.org/10.1103/PhysRevC.94.034301

оригинал опубликован в рубрике Последние разработки в Adversarial Example, Part I