Обман моделей машинного обучения с помощью враждебных входных данных

В Unknot.id Inc. в течение последних нескольких месяцев мы были заняты работой над несколькими новыми технологиями, включая создание простых CAPTCHA с использованием поведенческого зондирования пользователей, взлом моделей машинного обучения с использованием методов состязательного обучения и, очевидно, машинное обучение с сохранением конфиденциальности с использованием подходов, основанных на данных. . Недавно я консультировал трех студентов из Университета Джона Хопкинса в рамках их проекта Capstone в области состязательного обучения. Это то, о чем я буду говорить сегодня. Специально решаемая сложная проблема заключается в следующем:

Можем ли мы подделать поведенческие биометрические модели, создав «состязательные образцы», которые имитируют поведение пользователя?

В наших предыдущих сообщениях мы говорили о новой волне биометрии под названием поведенческая биометрия, которая направлена на решение некоторых проблем, с которыми сталкиваются существующие решения, основанные на знаниях и биометрии. Примеры поведенческой биометрии, как правило, включают:

· Динамика нажатия клавиш/мыши

· Походка

· Шаблоны использования устройств

· Часто посещаемые места

· Шаблоны просмотра

Методы на основе поведенческой биометрии используют множество измерений, сделанных современными устройствами (акселерометр, гироскоп, GPS, нажатия клавиш, движения мыши и т. д.), и используют алгоритмы машинного обучения на этих измерениях для создания безопасных моделей аутентификации, которые могут непрерывно и ненавязчиво аутентифицировать пользователя.

Состязательное машинное обучение

В последнее время большое внимание уделяется новой области машинного обучения под названием состязательное машинное обучение, которое исследователи использовали для успешного обмана биометрических систем, например Deep Fake. Например, классификаторы машинного обучения (глубокие нейронные сети) уязвимы для состязательных примеров, которые тщательно разработаны, чтобы ввести в заблуждение классификаторы с небольшим возмущением, добавленным к исходным входным выборкам.

Враждебные образцы обычно строятся с использованием подхода белого или черного ящика. В так называемой атаке белого ящика шум для добавления к входным образцам выбирается путем поиска на основе градиента с доступом к структуре и параметрам классификатора. Используя такую модель атаки, злоумышленник может добавить шум к изображениям или звуку, что, в свою очередь, приведет к ошибочным прогнозам классификатора. С другой стороны, модели «черного ящика» работают без знания параметров модели, и производительность атак «черный ящик» против развернутых моделей часто значительно снижается. В нашей работе мы исследовали метод «черного ящика», но применили метод быстрого градиентного знака (FGSM), распространенный подход, используемый для атак «белого ящика» на сверточные нейронные сети, для запуска атаки «черный ящик» и создания образцов атаки, чтобы обмануть поведенческую биометрию. система, построенная на рекуррентных нейронных сетях (RNN). Мы используем функцию совместного использования модели алгоритмов глубокого обучения и обучаем теневые модели, которые имитируют целевую модель RNN для этой цели.

Примечание. Полное описание работы дано в [1], а здесь мы кратко проиллюстрируем основные задачи, структуру и результаты.

Существует несколько атак, связанных с состязательным обучением, на алгоритмы машинного обучения, и новизна нашей работы исходит из следующих двух ключевых точек зрения:

Отсутствие знаний о пользовательских данных, используемых для обучения целевой модели. В типичных усилиях злоумышленника по обучению злоумышленник имеет доступ к данным всех классов, то есть к изображениям всех чисел от одного до девяти при атаке с распознаванием чисел. Однако в нашем исследовании злоумышленник не знает образцов данных реального пользователя или любых других пользователей, которые используются для построения модели классификации, на которую направлена атака. Он имеет доступ только к одному классу входных данных, т. е. образцам данных противника (ей) или, проще говоря, «данным его или его друзей».
Атака методом «черного ящика» на рекуррентные нейронные сети (RNN). В этом исследовании используется архитектура RNN, обученная на данных временных рядов, отражающих поведение пользователей. Сильная корреляция между временными признаками в его входных данных создает множество проблем, включая выборку запросов, построение входных данных для целевой модели и построение теневой модели.

Предположения

Мы рассматриваем поведенческую биометрическую систему на основе походки, которая использует повторяющиеся алгоритмы глубокого обучения на необработанных данных датчиков, собранных на смартфоне, для изучения модели идентификации пользователя на основе походки. Эти модели обучаются с использованием общедоступных общедоступных наборов данных (например, HAR, Advanced HAR, HMOG) и частных наборов данных, собранных на Unknot.id. Предполагая развертывание модели в облаке или на устройстве, пользователь, имеющий доступ к приложениям для смартфонов, может получить доступ к службе, если поведенческие характеристики пользователя согласуются с сохраненной моделью. Мы предполагаем, что смартфон пользователя может быть скомпрометирован внешним злоумышленником, например, путем эксплуатации уязвимости или установки вредоносного ПО, либо внутренним злоумышленником. На этапе сбора информации злоумышленник отправляет несколько запросов аутентификации с манипулируемым вводом, не блокируя доступ к конечной системе. Как только будет собрано достаточно информации о конечной системе, злоумышленник тщательно строит искаженные примеры, чтобы обойти классификатор аутентификации поведенческой биометрии, то есть целевую модель.

Мы предполагаем, что облако или конечное устройство защищено существующими технологиями, и сосредоточимся на том, чтобы воздействовать на его собственный ввод в соответствии со стратегией. Здесь обратите внимание, что мы пытаемся найти другой способ взлома поведенческой биометрической системы, отличный от типичных методов взлома облака/устройства. Цель злоумышленника состоит в том, чтобы записать трехосные последовательности движений своих/ненастоящих пользователей и внести возмущения перед отправкой их в систему аутентификации.

Состязательная модель

Мы расширяем модель угроз в статье Papernot et al. [2], ограничивая злоумышленника запросом целевого классификатора в пределах ограничения, что является более реалистичным предположением. Важно отметить, что записанные данные не являются подмножеством данных, используемых для обучения модели аутентификации. Более того, мы предполагаем, что достоверность (вероятность) решения об аутентификации доступна злоумышленнику, возможно, через его интерфейс прикладного программирования (API).

Основная цель злоумышленника — исказить свои данные шумом, который создается путем минимального запроса целевой модели, и подтолкнуть целевую систему к ложному принятию злоумышленником.

Рисунок 1. Экспериментальная структура, используемая для построения враждебных выборок

На приведенном выше рисунке показана структура атаки, используемая для обучения теневой модели для создания экземпляров атаки, которые могут ввести в заблуждение целевую систему. Вначале создается набор запросов, которые передаются в целевую модель для получения соответствующих им вероятностей отказа, называемых вероятностью отказа 1 (DP1). Вероятность отказа относится к выходным данным целевой модели, таким как вероятность того, что запрос аутентификации будет отклонен. Запросы можно рассматривать как первоначальные входные данные для целевой модели для создания обучающих экземпляров, которые можно использовать для обучения теневой модели, которые, в свою очередь, случайным образом выбираются из набора данных злоумышленника ( показан как база данных). Согласно модели угроз, небольшое количество запросов, необходимых для взлома системы, означает более уязвимую систему. Напротив, большое количество требуемых запросов предполагает более безопасную систему. На практике обычно для таких систем аутентификации настраивается порог безопасности, который представляет собой максимально допустимое количество неудачных попыток аутентификации. Если количество отказов превысит этот порог, система будет заблокирована. Запросы в нашей структуре эквивалентны порогу безопасности. Интуитивно понятно, что меньшее количество запросов означает меньше обучающих экземпляров для теневой модели и, следовательно, меньше информации о целевой модели, которая раскрывается и передается в теневую модель, и наоборот. Мы также ввели метрику, называемую стратегией выборки, которая показывает, насколько эффективно можно выбирать из наборов данных для создания беспристрастной теневой модели. Тем не менее, стратегия выборки также важна. Для нашей структуры атаки мы использовали запросы размеров, равных 10, 50, 100 и 1000.

Затем обучающие экземпляры, т. е. запросы, и соответствующие им вероятности отказа (результат целевой модели) используются для обучения теневой модели. После создания теневой модели с использованием обучающих экземпляров мы дополнительно применяем FGSM к теневой модели и набору враждебных экземпляров для создания экземпляров атаки. FGSM итеративно выводит градиент каждой функции и желаемое возмущение для каждого враждебного экземпляра. Мы также использовали два параметра для мониторинга производительности фреймворка: количество враждебных экземпляров, переданных в теневую модель, и максимальное количество итераций, которые FGSM будет запускать для каждого враждебного экземпляра. Это поможет нам понять, сколько данных необходимо для обучения теневой модели и сложности запуска FGSM (т. е. ресурсов, необходимых злоумышленнику). Для каждого экземпляра противника, заданного теневой модели, отслеживаемой FGSM, итерация останавливается либо тогда, когда вероятность отказа, предсказанная теневой моделью, сходится (обычно с 5–6 итерациями), либо если количество итераций достигает 10. Затем возмущенный ввод в последняя итерация становится выходом FGSM, т. е. экземпляром атаки.

Мы берем 100 первоначальных враждебных экземпляров и загружаем их в целевую модель и записываем их вероятности отказа, называемые вероятностью отказа 2 (DP2), которая используется для сравнения с вероятностью отказа на шаге 5. Наконец, мы берем атаку 100. экземпляры, сгенерированные из FGSM, и передать их в целевую модель, чтобы получить соответствующие вероятности отказа. Эта вероятность называется вероятностью отказа 3 (DP3). Эффективность нашей атаки определяется этими тремя вероятностями отказа. Обратите внимание, что мы повторили описанный выше процесс десять раз для каждой настройки (от 10 до 1000) количества запросов, разрешенных для обучения теневой модели. Итак, у нас есть некоторое представление о том, насколько вероятно вызвать ложное принятие, т. е. по крайней мере один из 100 экземпляров атаки с помощью теневой модели и FGSM вводит вероятность отказа (DP3) ниже 0,5 для цели. модель.

Результаты

Одно из наших ключевых наблюдений заключается в том, что чем выше качество теневой модели, тем эффективнее метод FGSM генерирует экземпляры атаки, что может снизить вероятность отклонения аутентификации на целевой модели, как показано на рисунке 2 ниже. (Для краткости просто взгляните на среднюю наименьшую вероятность отказа, которая представляет собой среднее значение по 10 повторениям самой низкой вероятности отказа среди 100 примеров атак для каждой обученной теневой модели.) По мере увеличения количества обучающих экземпляров могут быть созданы лучшие теневые модели, которые, в свою очередь, можно использовать для создания более эффективных экземпляров атаки. Интуитивно понятно, что по мере того, как доступно больше обучающих экземпляров, можно создавать теневые модели, которые более точно имитируют целевую систему.

Рисунок 2. Количество запросов и вероятность отказа

Сказав, что в наших случаях даже с десятью запросами мы смогли построить теневую модель, которая преуспела в создании экземпляров атаки, чтобы обмануть целевую систему, и представлена ниже.

Рисунок 3. Производительность теневых моделей с 10 запросами, демонстрирующая возможность создания атаки с вероятностью отказа всего 0,4

Ссылки

[1] Х. Го, З. Ван, Б. Ван, С. Ли, Д. М. Шила, Обманывать поведенческую биометрическую систему походки на основе глубокого обучения, Семинар по безопасности и конфиденциальности, 2020 г., https://www.ieee -security.org/TC/SPW2020/WAAS/

[2] Н. Пейпернот и др., «Практические атаки методом «черного ящика» против машинного обучения», в материалах конференции ACM on Asia 2017 по компьютерной и коммуникационной безопасности, 2017.

Подпишитесь на меня и наслаждайтесь новейшими технологиями искусственного интеллекта, кибербезопасности и конфиденциальности. В Unknot.id Inc. мы стремимся создать беспрепятственное безопасное общество, внедряя достижения мирового класса в области динамической, контекстно-зависимой, основанной на смартфонах поведенческой аналитики в сфере финансов, электронной коммерции и Интернета вещей (IoT). для обнаружения и предотвращения мошенничества многомерным, бесконфликтным и конфиденциальным способом.