Злоумышленник может использовать враждебные примеры, чтобы заставить беспилотные автомобили совершать нежелательные действия.

С помощью состязательных примеров типичную нейронную сеть можно легко обмануть и получить нежелательный результат классификации с высокой степенью достоверности. Это может стать катастрофой, если мы будем использовать нейронные сети в реальных приложениях, таких как беспилотные автомобили. Группа ученых из Калифорнийского университета в Беркли разработала три алгоритма атаки для оценки надежности нейронных сетей классификации изображений.

Что такое состязательные примеры?

Хорошо обученная нейронная сеть может быть чрезвычайно чувствительна к входным данным с незначительными изменениями. Эти входные данные называются состязательными примерами. Состязательные примеры разработаны так, чтобы быть близкими к исходным образцам. Изменение, сделанное на состязательном примере, незначительно и незаметно для человека. Однако это небольшое возмущение вызывает снижение производительности нейронных сетей.

Алгоритмы атаки, которые они разработали, являются целенаправленными атаками. То есть целевые враждебные примеры могут инициировать выходные результаты целевой классификации нейронной сети. Эти целевые атаки гораздо более эффективны, чем нецелевые атаки, поскольку злоумышленник может манипулировать решением классификатора.

Они проводили враждебные атаки по принципу «белого ящика». То есть противник может получить доступ к архитектуре и всем параметрам в нейросети. Поскольку атаки могут переноситься на другие модели доступа «черный ящик», можно обучить заменяющую модель доступа «белый ящик» и построить враждебные примеры.

Для построения состязательных примеров используются методы оптимизации с различными целевыми функциями на основе функции потерь при обучении нейронной сети. Метрики расстояния также включены в оптимизацию, чтобы построенные состязательные примеры выглядели более похожими на исходные примеры. С помощью подходящего решателя они могут быстро найти состязательные примеры с целевой меткой.

В результате их атаки легко взламывают защитно-дистиллированную сеть, которая ранее эффективно снижала вероятность успеха состязательных атак. Более того, разница между оригинальными и сконструированными состязательными примерами минимальна, и даже человек не смог бы отличить их. Существование состязательных атак ограничивает реальные приложения глубокого обучения как проблему безопасности. Поэтому оценка надежности нейронной сети имеет большое значение, прежде чем она будет применяться ко все большему количеству реальных систем.

Ссылка:

Карлини, Н. и Вагнер, Д., 2017 г., май. К оценке надежности нейронных сетей. На Симпозиуме IEEE по безопасности и конфиденциальности (SP) 2017 г. (стр. 39–57). IEEE.