Враждебные атаки на ML

TLDR

Состязательные атаки на модели машинного обучения — это рассчитанные изменения вашего ввода в систему машинного обучения (поисковый запрос в Google, ваш профиль пользователя в Netflix и Instagram и т. д.), которые приводят к предполагаемым вредным результатам. Эти изменения специально изучаются и получаются с учетом модели машинного обучения и определенного ввода.

Предисловие

Этот блог в значительной степени основан на руководствах Адриана по состязательным изображениям и атакам и целевым состязательным атакам. Если вас интересуют практические эксперименты и подробное описание атак злоумышленников, обратитесь к этим руководствам!

Введение

Приложения машинного обучения развертываются повсюду вокруг нас, чтобы помогать нам в жизни, и большинство людей этого не замечают. Чтобы назвать лишь некоторые из них, когда вы ищете в Google плохо сформулированный вопрос, он использует технологии обработки естественного языка (NLP), чтобы понять, что вы «на самом деле» имеете в виду. Когда вы просматриваете социальные сети в свободное время, системы рекомендаций усердно работают, чтобы развлечь вас. Когда вы подаете заявку на работу, ваше резюме обобщается по ключевым словам для выполнения первого уровня фильтрации. В большинстве случаев все работает без проблем, но что, если они внезапно перестанут работать. Независимо от того, что вы ищете в Google, возвращается пустая страница результатов. Когда вы ищете музыкальные клипы на YouTube, вам рекомендуется страница, полная лекций о вероятности и статистике. Каким бы совершенным ни было ваше резюме, вы никогда ничего не услышите от рекрутера (хмммм). Это звучит как ужасный мир для жизни, и все это может произойти из-за вражеских атак!

В этой статье мы в основном сосредоточимся на машинном обучении, связанном с визуальными изображениями и компьютерным зрением. Компьютерное зрение преобладает вокруг нас: распознавание лиц в Face ID, игры и приложения с дополненной реальностью (AR) (PokemonGo) и приложения, автопилот Tesla, распознавание жестов в Just Dance. Атака злоумышленников на эти приложения может иметь разную степень последствий. С другой стороны, это потенциально может привести к проигрышу всех ваших сражений Just Dance. А если серьезно, то это может привести к серьезным автомобильным авариям со смертельным исходом: представьте, что Tesla на автопилоте видит знак «стоп», но думает, что это знак «уступи дорогу», как показано на рисунке 1.

Существует два подхода к состязательным атакам: нецелевые и целевые. Нецелевая атака — это когда злоумышленника не волнует результат классификации измененного изображения, все, что он хочет сделать, — это неправильно классифицировать изображение. Между тем, он не имеет контроля над тем, как будет классифицироваться изображение. Знак «стоп» может быть классифицирован как «не входить», «уходить» или что-либо другое, кроме «стоп». С другой стороны, целевая атака в полученной классификации является более преднамеренной. При этой настройке злоумышленник может точно выбрать, к чему классифицируется знак остановки.

Подход

Предположением перед выполнением состязательной атаки является доступ к обученной модели машинного обучения для классификации изображений и входному изображению, которое модель способна правильно классифицировать. Здесь следует отметить, что мы видим изображения целостно, но для моделей машинного обучения они представляют собой просто сетки чисел RGB, которые представляют свои цвета для каждого пикселя в диапазоне от 0 до 255. В этом примечании, если некоторые пиксели имеют красное значение, добавленное к числу меньше 10, или зеленое значение, вычтенное из аналогичного числа, модель может легко обнаружить разницу, но для нашего человеческого глаза это невозможно заметить. Эта атака использует эту характеристику для изменения изображений прямо перед нашими глазами. Вот как работает эта атака.

Имея входное изображение и модель классификации изображений, мы сначала хотим увидеть, какова истинная метка входного изображения. Затем мы добавляем изображение случайного шума на входное изображение. Изображение случайного шума может выглядеть примерно так, как показано на рисунке. Как упоминалось выше, это шумовое изображение намеренно построено с очень маленькими числами, так что полученное измененное изображение выглядит точно так же, как исходное изображение для человеческого глаза. Не вдаваясь в подробности обучения, изображение со случайным шумом обучается так, чтобы полученное измененное изображение избегало истинной метки, а его значения пикселей также обрезались в небольшом диапазоне на каждой итерации обучения, чтобы изменение оставалось незаметным для человеческого глаза. [объясните изображения]

В качестве расширенного подхода этот же алгоритм можно применять для принудительной конкретной классификации вместо того, чтобы просто ошибочно классифицировать изображение по случайным неправильным меткам. Этот целенаправленный подход является более мощным. Единственное отличие от описанного выше подхода заключается в том, что полученное измененное изображение обучается не избегать истинной метки, а приближаться к целевой метке. [объясните изображения]

Обсуждение и заключение

Это, безусловно, огромная угроза для современного общества, поскольку все больше и больше рабочих мест назначается агентам машинного обучения, поэтому более безопасное машинное обучение является большой активной областью исследований. Вот несколько примеров таких атак на другие поля, кроме изображений: