До того, как конфиденциальность стала основным фактором, мы редко задумывались о том, что компании делают с нашими данными. Лично мне было все равно, как такие компании, как Facebook или Google, использовали мои данные, до знаменитого скандала между Facebook и Cambridge Analytica в 2018 году [1]. Эти и другие случаи неправомерного использования данных подчеркивали важность строгого регулирования конфиденциальности, такого как «право на забвение» [2] и «Общее положение о защите данных». Их намерения очевидны: мы, как пользователи и поставщики данных, имеем право скрывать наши данные.

Эти правила стали огромным шагом вперед, потому что они дали нам право и полномочия защищать наши данные. Но они также создают огромные проблемы для сервисов машинного обучения, потому что модели часто охотно обучаются на (пользовательских) данных, прежде чем их точные прогнозы будут статически обслуживаться. В частности, запросы на отмену обучения могут оказать огромное влияние на точность и время обучения моделей машинного обучения, которым необходимо отучиться. В этом сообщении в блоге я расскажу о некоторых ключевых моментах одной из моих исследовательских работ, написанной в сотрудничестве с лабораторией CleverHans. Machine Unlearning появится на конференции IEEE SSP 21' и будет доступна на моем веб-сайте или arXiv [3]. Этот пост в блоге разбит на три части:

  • Часть 1 — определение машинного отучения (или просто отучения),
  • Часть 2 — сравнение различных методов отучения с нашим подходом: SISA, который гарантирует полное стирание необученных данных.
  • Часть 3 — подробное изучение SISA, включая наши методологии оценки и руководство по внедрению произвольных моделей машинного обучения.

Обзор машинного обучения (ML)

Цель этого раздела — дать интуитивно понятное понимание соответствующих концепций машинного обучения на высоком уровне. Если вам не нужен этот обзор, смело переходите к следующему разделу.

Для целей этой записи в блоге мы уделяем особое внимание обучению с учителем, где мы стремимся изучить наилучшее возможное сопоставление каждого ввода с соответствующим ярлыком. Например, нам может понадобиться определить, является ли данное изображение стулом, столом или лампой. В этом случае входными данными будут пиксели изображения, а выходными данными будут предсказания «стул», «стол» или «лампа». Картирование может узнать, что короткие четырехногие контуры соответствуют стульям, более широкие четырехногие контуры соответствуют столам, а длинные цилиндрические контуры соответствуют лампам.

Модель изучает это сопоставление, обеспечивая наилучшее соответствие между всеми парами (вход, метка) в нашем наборе данных. В приведенном выше примере мы гарантируем, что примерно все изображения стульев правильно классифицируются как стулья, столы как столы и так далее. Отображение ввода-вывода, которое достигает этой цели «наилучшим образом», решает нашу задачу классификации изображений для набора {стол, стул, лампа}. В общем, можно изучить множество таких отображений, некоторые из которых лучше и/или более вероятны, чем другие. Например, мы ожидаем, что отображения, которые предсказывают четырехногие объекты как стулья, будут более вероятными (и лучше), чем отображения, которые предсказывают двуногие объекты как стулья. Таким образом, существует распределение возможных моделей машинного обучения, каждая из которых решает задачу с разной степенью успеха.

Большая область исследований машинного обучения сосредоточена на глубоком обучении и нейронных сетях, которые являются одним из классов параметризации отображения. Многие недавние достижения в области машинного обучения обучают глубокие нейронные сети на больших объемах данных для изучения надежных и эффективных сопоставлений для множества различных задач (например, обнаружение разжигания ненависти, расшифровка аудио или видео и т. д.) в вычислительно затратном процессе. Позже эти обученные модели используются для эффективного прогнозирования меток для новых входных данных (например, изображений). Модели, которые проходят дорогостоящее обучение перед последующим обслуживанием, известны как «нетерпеливые ученики», в отличие от «ленивых учеников», которые выполняют основную часть вычислений во время прогнозирования. Проще говоря, энергичные учащиеся предварительно вычисляют сопоставление, используя набор данных, тогда как ленивые учащиеся вычисляют это сопоставление на лету уникально для каждого прогноза. Стремящиеся к учебе более эффективны при принятии многих запросов, но также более сложны для разучивания.

Что такое машинное разучивание?

Машинное разучивание — это проблема забывания вклада точки данных в карту ввода-вывода модели машинного обучения. Пользователи должны разумно ожидать, что, когда они запрашивают удаление своих данных, любые вклады их данных в последующие модели также должны быть удалены. Таким образом, конфиденциальность пользователя защищена от злоумышленников, которые могут попытаться нарушить ее, выводя конфиденциальную информацию о пользователе, которая использовалась для обучения модели. Но что значит удалить вклад точек данных?

Идеальным случаем является то, что модель никогда не обучалась на этих данных, что может быть наивно достигнуто путем переобучения модели с нуля без необученных данных — процесс, требующий значительных вычислительных ресурсов. Прежде чем углубиться, давайте сначала определим несколько ключевых терминов: D — это набор данных, добавленных пользователями, где dᵤ — это точка данных, которую нужно отменить. Mᵒʳⁱᵍⁱᶰᵃˡ – это модель, которая с готовностью обучается на всех наших данных (D + dᵤ) – это наш сервис или продукт машинного обучения до получения запроса на отмену обучения. Мы фокусируемся на активно обучаемых моделях, потому что их обучение делает процесс разучивания нетривиальным, в отличие от ленивых моделей, где мы можем просто удалить dᵤиз набора данных. Наша цель — разработать алгоритм отучения, который может выводить новую модель, Mᵘᶰˡᵉᵃʳᶰᵉᵈ, способом, который в вычислительном отношении дешевле, чем переобучение с нуля (Mᶰᵃⁱᵛᵉ), сохраняя при этом конфиденциальность dᵤ.

Таким образом, у нас есть два возможных решения нашей проблемы. Наивно, мы можем отбросить Mᵒʳⁱᵍⁱᶰᵃˡ, удалить данные dᵤ и переобучить новую модель только на D, что даст нам Mᶰᵃⁱᵛᵉ; или мы можем попытаться эффективно преобразовать модель, обученную на dᵤ, Mᵒʳⁱᵍⁱᶰᵃˡ, в нашу необученную модель Mᵘᶰˡᵉᵃʳᶰᵉᵈ.

Чтобы обеспечить конфиденциальность dᵤ, мы требуем, чтобы Mᵘᶰˡᵉᵃʳᶰᵉᵈ=Mᶰᵃⁱᵛᵉ, или, точнее, чтобы распределение возможных моделей из нашего алгоритма отучения точно совпадало с распределением моделей, обученных на Д. В противном случае модель сохраняет некоторый вклад от dᵤ после процесса отмены обучения, что может позволить злоумышленнику вывести конфиденциальную информацию о пользователе. Большая часть этой новой области исследований сосредоточена на вероятностномотучении и демонстрации того, что Mᵘᶰˡᵉᵃʳᶰᵉᵈ≃Mᶰᵃⁱᵛᵉ, который не полностью защищает конфиденциальность пользовательских данных. >

Эти формулировки не могут полностью разучить dᵤ без разрушения всей полезности вывода нашей модели, а это означает, что мы всегда будем иметь MᵘᶰˡᵉᵃʳᶰᵉᵈMᶰᵃⁱᵛᵉ, используя вероятностное разучивание. Следовательно, всегда будет некоторый ненулевой вклад от dᵤ, который злоумышленник может вывести. Однако это расслабленное определение отучения помогает найти компромисс между конфиденциальностью пользовательских данных и эффективностью создания Mᵘᶰˡᵉᵃʳᶰᵉᵈ.

Таким образом, мы сосредоточены на том, чтобы гарантировать Mᵘᶰˡᵉᵃʳᶰᵉᵈ=Mᶰᵃⁱᵛᵉ, что является нашим строгими детерминированным определением отучения. Это определение гарантирует, что конфиденциальность пользователя (100%) защищена, потому что любая результирующая модель после разучивания dᵤ точно эквивалентна повторному обучению без него. По сравнению с наивным подходом мы добиваемся отучения эффективным с вычислительной точки зрения способом.

Во второй части мы сравним вероятностные методы с нашим подходом, SISA: уточним, почему достижение Mᵘᶰˡᵉᵃʳᶰᵉᵈ=Mᶰᵃⁱᵛᵉтак сложно ввероятностной обстановке, и рассмотрим, как достигается наш подход. эта гарантия.

использованная литература

[1] А. Форрест, Facebook оштрафован на 5 миллиардов долларов за «неправомерный обмен личными данными», The Independent, 2019 г. [онлайн]. Доступно: https://www.independent.co.uk/news/world/americas/facebook-data-privacy-scandal-settlement-cambridge-analytica-court-a9003106.html.

[2] Объявление: Уполномоченный по вопросам конфиденциальности добивается решения Федерального суда по ключевому вопросу, касающемуся онлайн-репутации канадцев — Управление уполномоченного по вопросам конфиденциальности Канады, Priv.gc.ca, 2020 г. [Онлайн]. Доступно: https://www.priv.gc.ca/en/opc-news/news-and-announcements/2018/an_181010/.

[3] Буртул, Л., Чандрасекаран, В., Шокетт-Чу, К., Цзя, Х., Трэверс, А., Чжан, Б., Ли, Д., и Папернот, Н. Машинное разучивание. Препринт arXiv arXiv: 1912.03817, 2019.