Конфиденциальность и безопасность данных с федеративным обучением

Люди в области AI-ML-DL часто спрашивали о конфиденциальности данных и безопасности данных, что довольно логично, потому что после обучения моделей на самых разных наборах данных, какой должна быть стратегия для работы с данными и его конфиденциальность?

Для современного ИИ все еще существуют два серьезных препятствия. Во-первых, данные обычно существуют в виде изолированных островков в различных компаниях. Другой — повышение безопасности данных и конфиденциальности. В текущих наиболее разрекламированных методах обучения и обучения мы приближаем наши наборы данных к фиксированной и централизованной модели, на которой происходит извлечение информации. передача данных из системы в систему, из базы данных в базу данных довольно сложна, и возможны утечка данных и кража данных.

Федеративное обучение — это новая модель обучения, которая решает все вышеупомянутые проблемы. Давайте подробно рассмотрим федеративное обучение. Очень грубое или словарное значение слова федеративный звучит так: объединяться под управлением центрального правительства или организации, сохраняя при этом некоторый местный контроль». Как это значение связано с фактическим федеративным обучением, мы увидим в следующие разделы блога.

Что, если я смогу использовать локальную модель для данных, а не данные для модели? Давайте разберемся в этом на простом примере с обучающим блогом google.ai. Любое мобильное приложение, взаимодействующее с пользователями, можно использовать для обучения модели машинного обучения, которая пытается учиться на взаимодействиях с пользователем. На многочисленных мобильных устройствах модель машинного обучения будет обучаться одновременно. Эта обученная модель предоставляет обновления, которые затем передаются на централизованный сервер или модель. Входные данные, предоставленные промышленной моделью, будут использоваться для обновления централизованной модели. И снова на ваши устройства будет отправлена ​​централизованно обновленная модель.

Наше устройство загружает текущую модель, улучшает ее, изучая данные с вашего телефона, а затем обобщает изменения в виде небольшого целенаправленного обновления. Только это обновление модели отправляется в облако с использованием зашифрованной связи, где оно немедленно усредняется с другими пользовательскими обновлениями для улучшения общей модели.Все данные обучения остаются на вашем устройстве, и никакие отдельные обновления хранятся в облаке.

Объясняя это, у вас нет централизованных данных. У вас есть данные, распределенные по разным местоположениям и устройствам, и теперь вы хотите обучить модель машинного обучения.

По моему мнению, самая большая проблема с конфиденциальностью данных и безопасностью данных связана с этим. Данные находятся у пользователя, а обновленные модели отправляются в централизованную систему. Преимущество федеративного обучения заключается в том, что вы не приводите данные к модели, а приводите модель к данным. Обучение алгоритма на разных локальных границах или серверах и использование его в качестве выборки данных из генеральной совокупности.

Компании могут извлечь выгоду из точных моделей машинного обучения, но типичные централизованные системы машинного обучения имеют ограничения, такие как не непрерывное обучение на периферийных устройствах и объединение частных данных на центральных серверах. Федеративное обучение помогает смягчить эти проблемы.

В обычном машинном обучении центральная модель машинного обучения создается с использованием всех обучающих данных, доступных в централизованной настройке. Когда прогнозы могут обслуживаться центральным сервером, это работает без проблем.

Приятный пользовательский опыт может быть поставлен под угрозу из-за задержки связи между пользовательским устройством и центральным сервером в мобильных вычислениях, поскольку пользователи ожидают быстрых ответов. Для решения этой проблемы модель может быть установлена ​​на устройстве конечного пользователя, но, поскольку модели обучаются на целых наборах данных, постоянное обучение становится затруднительным.

Федеративное обучение в сфере здравоохранения:

Большие, разнообразные и высококачественные наборы данных предоставляют опыт для алгоритмов ИИ. Однако исторически такие статистические данные было трудно найти, особенно в отрасли здравоохранения.

Медицинские организации были вынуждены полагаться на свои собственные источники данных, которые могут быть искажены такими факторами, как демографические данные пациентов, используемые инструменты или клинические специальности. Либо для получения всех необходимых данных им приходилось объединять данные из других учреждений.

Согласно статье BrainTorrent: одноранговая среда для децентрализованного федеративного обучения, частая трудность в обучении глубоких нейронных сетей на медицинских изображениях заключается в получении доступа к достаточному количеству размеченных данных. Поскольку аннотирование данных требует больших затрат и времени, одному медицинскому центру сложно получить достаточное количество образцов для создания своих собственных моделей. Чтобы избежать этого, данные из всех центров могут быть собраны и использованы для обучения централизованной структуры, доступной для всех. Тем не менее, эта тактика часто используется. из-за частного характера медицинских данных это нецелесообразно. Недавно было разработано федеративное обучение (FL), позволяющее совместно изучать общую модель прогнозирования между центрамибез необходимости обмена данными. В FL пользователи обучают модели локально на наборах данных для конкретного сайта в течение нескольких эпох, прежде чем передавать веса своих моделей на централизованный сервер, который управляет всей процедурой обучения. Жизненно важно, чтобы конфиденциальность пациентов не подвергалась опасности из-за обмена моделями.

Федеративное обучение в Интернете вещей:

Интернет вещей (IoT) развивается, открывая новые возможности для сбора данных в реальном времени и развертывания моделей машинного обучения. Однако одно устройство IoT может не иметь вычислительной мощности для разработки и реализации полной модели обучения. Помимо проблем с безопасностью и конфиденциальностью данных, непрерывная отправка данных в режиме реального времени на центральный сервер с мощными вычислительными возможностями сопряжена с большими затратами на передачу. Согласно бумаге, многообещающим подходом к обучению моделей машинного обучения на пограничных серверах и устройствах с ограниченными ресурсами является федеративное обучение, распределенная структура машинного обучения.

Однако в большинстве существующих исследований предполагается непрактичный метод синхронного обновления параметров с унифицированными узлами IoT, соединенными через стабильные каналы связи. В этой статье мы создаем стратегию асинхронного федеративного обучения, чтобы повысить эффективность обучения для различных устройств IoT в различных сетях. Для эффективного выполнения учебных задач мы создаем облегченный алгоритм выбора узла и асинхронную федеративную модель обучения. Чтобы участвовать в глобальной обучающей совокупности, предлагаемый подход итеративно выбирает разнородные узлы IoT, принимая во внимание их локальную вычислительную мощность и состояние связи. В этом документе сделан вывод о том, как сбор и обработка данных с устройств IoT дают современные результаты.

Похоже, федеративное обучение имеет большой потенциал. Он не только защищает конфиденциальные пользовательские данные, но также собирает данные от многих пользователей, ищет общие шаблоны и со временем укрепляет модель. Он развивается на основе пользовательских данных, защищает их, а затем вновь появляется как более мудрая личность, которая еще раз готова испытать себя на своих собственных пользователях! Тестирование и обучение стали умнее! Федеративное обучение открыло новую эру защищенного ИИ, будь то обучение, тестирование или конфиденциальность информации. Разработка и реализация федеративного обучения по-прежнему сопряжены со многими трудностями, поскольку оно все еще находится в начальной форме. Разработка конвейера данных и определение проблемы федеративного обучения — два эффективных способа устранить это препятствие.

Программное обеспечение с открытым исходным кодом для федеративного обучения

·" СУДЬБА"

· Субстра

· ПиСифт

PyGrid

· ОпенФЛ

· Федеративный TensorFlow

· Федеративное обучение IBM

· Нвидиа Клара

Эффективность федеративного обучения

Безопасность данных. Хранение тренировочного набора на устройствах обеспечит безопасность данных и устранит необходимость в пуле данных для модели.

Разнообразие данных. Другие проблемы, такие как недоступность сети на периферийных устройствах, могут помешать компаниям объединять наборы данных из многочисленных источников. Федеративное обучение упрощает доступ к разнообразным данным, даже если некоторые источники данных могут обмениваться данными только время от времени.

Непрерывное обучение в режиме реального времени. Модели постоянно обновляются с использованием клиентских данных без необходимости агрегирования данных.

Эффективность оборудования: в этой стратегии используется менее сложное оборудование, поскольку модели федеративного обучения не требуют единого сложного центрального сервера для анализа данных.

Ссылки:

  1. Стефано Савацци, Моника Николи и Витторио Рампа, Федеративное обучение с взаимодействующими устройствами: консенсусный подход для крупных сетей IoT (2019 г.), arXiv:1912.13163v1 [eess.SP], 27 декабря 2019 г.
  2. ВирааджиМотукуриаРеза, М.ПарицияСейедамин, Пурийехб, Ян Хуанга, АлиДегантанхак, Гаутам Сривастава, Обзор безопасности и конфиденциальности федеративного обучения (2021 г.), Компьютерные системы будущего поколения, том 115
  3. Ритеш Шринивасан , Что такое федеративное обучение (видео на YouTube)
  4. Иштван Хегедуш, Габор Даннер и Марк Еласити, Работы по децентрализованному обучению: эмпирическое сравнение обучения с помощью слухов и федеративного обучения (2021 г.), Журнал параллельных и распределенных вычислений (Том 148)
  5. Вэньци Ли, Фаусто Миллетар, Дагуан Сюй, Никола Рике, Джонни Хэнкокс, Вентао Чжу, Максимилиан Бауст, Ян Ченг, Себастьен Урселин, М. Хорхе Кардосо и Эндрю Фэн, Федеративная сегментация опухоли головного мозга с сохранением конфиденциальности( октябрь 2019 г.), биомедицинская инженерия и визуализация, Королевский колледж Лондона, Великобритания
  6. Брендан МакМахан и Дэниел Рэймидж, ученые-исследователи, Федеративное обучение: совместное машинное обучение без централизованных обучающих данных (2017 г.), блог Google AI
  7. НИКОЛА РИКЕ, Что такое федеративное обучение? (2019 г.), блог Nvidia
  8. Alpharis(2022), Федеративное обучение Apheris

Если вы найдете это проницательным

Если вы нашли эту статью полезной, подпишитесь на меня в Linkedin и medium. вы также можете подписаться, чтобы получать уведомления, когда я публикую статьи. Спасибо за вашу поддержку!