Защита систем глубокого обучения от враждебных атак

Каждый день нейронные сети интегрируются в широкий спектр высокоэффективных систем, от беспилотных автомобилей до биомедицинского скрининга. и диагностика. В связи с этим возникает чрезвычайно важный вопрос: насколько защищены эти системы от атак?

К сожалению, ответ заключается в том, что они весьма уязвимы. Исследователи из Технологического института Джорджии и Intel недавно продемонстрировали, как злоумышленники могут обмануть системы компьютерного зрения (например, нейронные сети), чтобы они могли видеть то, чего на самом деле не существует. Это имеет серьезные последствия для самоуправляемых автомобилей и других систем, критически важных для безопасности, где на карту поставлена человеческая жизнь.

Чтобы предотвратить эти атаки, Polo Club of Data Science и Intel Технологического института Джорджии работают над защитой систем глубокого обучения от злоумышленников. атаки через программу DARPA Гарантия устойчивости искусственного интеллекта к обману (GARD).

Наше исследование представляет собой попытку обнаружить атаки со стороны противника в режиме реального времени до того, как злоумышленник сможет нанести значительный ущерб. В настоящее время эти системы глубокого обучения не различают объекты так, как люди. Например, когда люди видят велосипед, мы видим его руль, раму, колеса, седло и педали (рис. 2, вверху). Благодаря нашему визуальному восприятию и познанию мы синтезируем эти результаты обнаружения с нашими знаниями, чтобы определить, что мы действительно видим велосипед.

Однако, когда знак «Стоп» или велосипед модифицируются, чтобы обмануть модель и заставить ее ошибочно классифицировать его как птицу для людей, мы по-прежнему видимнадежные характеристики велосипеда(например, руль). С другой стороны, системы глубокого обучения не воспринимают эти надежные функции и часто обманом заставляют неправильно классифицировать изображение.

Вопрос в том, как мы включим эту естественную для людей способность интуитивного обнаружения в модели глубокого обучения, чтобы защитить их от вреда?

Защита систем глубокого обучения с помощью UnMask

Мы предлагаем простую, но эффективную идею о том, что надежное выравнивание признаков предлагает мощный, объяснимый и практичный метод обнаружения и защиты от враждебных возмущений в моделях глубокого обучения. Существенным преимуществом предложенной нами концепции является то, что, хотя злоумышленник может манипулировать меткой класса, слегка изменяя объект, гораздо сложнее одновременно манипулировать всеми отдельными функциями, которые вместе составляют изображение. Мы демонстрируем, что, адаптировав детектор объектов, мы можем эффективно извлекать высокоуровневые надежные функции, содержащиеся в изображениях, для обнаружения и защиты от враждебных возмущений.

Путем тщательной оценки мы продемонстрировали, что предлагаемая нами система защиты, UnMask, может эффективно обнаруживать враждебные изображения и защищаться от атак, исправляя неправильную классификацию. Как видно на рисунке 3 ниже, UnMask (UM) работает на 31,18 % лучше, чем один из ведущих методов защиты, состязательная тренировка (AT), и 74,44 %, чем отсутствие защиты ( Никто).

Хотите узнать больше?

Хотя мы не можем охватить все в этом сообщении блога, заинтересованный читатель может узнать больше о UnMask в нашей статье IEEE Big Data'20 на arXiv или посмотрите код на Github.

Защита систем глубокого обучения от враждебных атак

Защита систем глубокого обучения с помощью UnMask

Хотите узнать больше?

Вопросы по теме