Сразу после празднования 4 июля, посвященного 247-летнему расставанию с британцами, приятно уделить минутку памяти еще одной важной дате в американской истории. Когда мой любимый британский эстрадный певец Льюис Капальди проникновенно спрашивает: «Итак, прежде чем ты уйдешь, я мог бы сказать что-то, что заставило бы твое сердце биться чаще?» Мы возражаем: да, писаная конституция, устанавливающая федеративную систему правления. Принятая 21 июня 1788 г. Конституция США разделила руководящие полномочия между центральной властью (федеральным правительством) и отдельными штатами. Мы первыми сделали решительный шаг, но вскоре за нами последовали и другие, включая Германию, Швейцарию и Канаду.

Эта концепция распределения власти между центральной властью и местными властями не ограничивается только миром политики; он также проник в мир искусственного интеллекта. Бьюсь об заклад, вы этого не предвидели, не так ли? Итак, слушайте оркестры, фейерверки и уличные гонки NASCAR (для моих друзей в Чикаго), а также красное, белое и синее конфетти, потому что мы собираемся погрузиться в мир федеративного обучения или федеративного ИИ.

В, казалось бы, обычный день, 6 апреля 2017 года, Брендон МакМахан и Дэниел Рэймидж, ученые-исследователи из Google, покорили мир технологий, опубликовав сообщение в блоге под названием «Федеративное обучение: совместное машинное обучение без централизованных обучающих данных». Это было приглашение Google миру познакомиться с новой концепцией искусственного интеллекта. Тем не менее, как и тот тихий человек, который храбро встает, чтобы произнести тост, пока вечеринка в самом разгаре, для многих из нас важный момент Google остался незамеченным. Но не волнуйтесь. Как человек, который никогда не был застенчивым, я готов взять микрофон и вновь представить вас, о котором вы даже не подозревали.

Федеративный ИИ, также известный как федеративное обучение, представляет собой децентрализованный подход к обучению моделей машинного обучения. Ключ? Данные хранятся локально для обучения, обеспечения конфиденциальности и конфиденциальности, а не отправляются на централизованный сервер. Обучение модели происходит в источнике данных (например, на устройстве или в защищенной среде), и только обновления модели (например, веса и смещения) отправляются на центральный сервер для агрегирования.

В моделях машинного обучения, особенно в нейронных сетях (если вам нужно освежить в памяти эту тему, ознакомьтесь с разделами Демистификация нейронных сетей: часть 1 и Демистификация нейронных сетей: часть 2), алгоритмы выявляют шаблоны в данных и обучаются, настраивая параметры модели, такие как веса и смещения. Веса представляют силу или важность, которые модель присваивает каждому входу, а смещения подобны отправной точке, которая может усиливать или компенсировать прогнозы модели. Предположим, мы устраиваем вечеринку барбекю 4 июля с хот-догами, гамбургерами и вегетарианскими бургерами. Не всем все нравится, и уж точно не в одинаковых пропорциях. Если мы знаем из прошлых вечеринок, что большинство посетителей — вегетарианцы, мы купим и приготовим больше вегетарианских бургеров, чем хот-догов и гамбургеров. Другими словами, мы придаем больше веса вегетарианским бургерам как вкладу в наш окончательный состав еды. В то же время мы делаем некоторые предположения о том, сколько каждый съест, чтобы не остаться без еды. Это наши предубеждения. Мы можем предположить, что каждый человек съест два вегетарианских бургера, но затем узнаем, что кто-то сидит на диете и хочет только один, или кто-то пропустил свой последний прием пищи и мог бы съесть четыре. Мы обновляем наши первоначальные предположения по мере поступления новой информации, подобно модели машинного обучения.

При федеративном обучении эти веса и смещения изучаются в каждой локальной среде, а затем отправляются на центральный сервер для агрегирования, часто с усреднением этих параметров. Таким образом, центральная модель может учиться на основе всех локальных данных без необходимости делиться исходными данными, тем самым сохраняя конфиденциальность.

Теперь давайте рассмотрим, как федеративный ИИ может изменить правила игры в сохранении конфиденциальности данных на примере Бюро переписи населения США. Для защиты конфиденциальности (разглашения информации) своих респондентов Бюро переписи населения не публикует данные на очень детализированных географических уровнях, которые можно было бы использовать для идентификации конкретных лиц. Вместо этого использовался один из подходов, заключающийся в объединении данных из нескольких источников для получения оценок для более детализированных географических регионов, чем может поддерживать любой отдельный набор данных (более подробную информацию об использовании синтетических данных в Бюро переписи населения см. здесь).

Однако федеративный ИИ может предложить более безопасную и эффективную альтернативу. Вот как это может работать:

  • Бюро переписи населения обучает модель машинного обучения на конфиденциальных данных локально, на серверах Бюро. Это гарантирует, что данные никогда не покинут защищенную среду Бюро переписи населения.
  • В процессе обучения модель обучается, настраивая свои параметры (веса и смещения). После того, как модель соответствующим образом обучена, эти обновленные параметры, которые теперь инкапсулируют информацию, полученную из конфиденциальных данных, извлекаются. Важно отметить, что эти параметры напрямую не раскрывают никаких особенностей конфиденциальных данных.
  • Теперь Бюро переписи населения может поделиться этими обновленными параметрами модели с общественностью. Исследователи или аналитики могут использовать эти параметры для инициализации собственных версий модели.
  • Используя эти параметры, общественность может генерировать прогнозы или идеи, основанные на конфиденциальных данных, даже не имея доступа к необработанным данным. Это можно сделать, введя общедоступные или другие собранные данные в свою версию модели.

Однако Federated AI не застрахован от всех атак на конфиденциальность. Несмотря на то, что он имеет большие перспективы для изменения того, как мы обучаем модели машинного обучения и управляем конфиденциальностью данных, особенно в федеральных агентствах, необходимо прилагать постоянные усилия для разработки методов против продвинутых состязательных атак, особенно тех, которые направлены на определение того, была ли конкретная точка данных включена в обучающий набор.