Конфиденциальность данных в мире аутсорсингового искусственного интеллекта

Искусственный интеллект (ИИ) и глубокое обучение могут помочь в получении важной бизнес-аналитики. Многие руководители готовы использовать возможности этой технологии, но их сдерживает одна главная проблема. Нанять технических специалистов для кибербезопасности само по себе достаточно сложно; наем технических специалистов для ИИ — гораздо более сложная задача.

С этой проблемой недавно столкнулась Национальная служба здравоохранения Великобритании (NHS). Недавно были продемонстрированы потрясающие результаты с использованием методов компьютерного зрения для выявления конкретных типов заболеваний у медицинских пациентов путем просмотра сканов тела пациента. Искусственный интеллект имеет большой опыт эффективного прогнозирования заболеваний, таких как рак, сердечные приступы и многих других диагнозов на основе изображений.

Медицинская информация особенно чувствительна для медицинских организаций, таких как NHS, но она также является одним из самых прибыльных видов PII для киберпреступников. Существует множество свободно доступных программных пакетов для искусственного интеллекта/машинного обучения, таких как theano, torch, cntk и tensorflow. Несмотря на доступность этих инструментов, многие организации, такие как NHS, не имеют достаточного доступа к экспертам, способным использовать мощные инструменты машинного обучения. Без такого сотрудничества многие болезни могут остаться невыявленными, а люди могут умереть. Поэтому NHS* решила сотрудничать с DeepMind, компанией, приобретенной Alphabet/Google. Кембриджский университет и The Economist написали статью, подробно описывающую многие аспекты контракта.

В результате DeepMind получает доступ к 1,6 миллионам медицинских карт и аккуратному применению своей технологии в дополнение к нераскрытому финансированию. Эти данные включают анализы крови, медицинские диагнозы и истории болезни, а также более конфиденциальные данные, такие как диагноз ВИЧ и предшествующее употребление наркотиков. В поддисциплине машинного обучения, называемой глубоким обучением, алгоритмы особенно зависят от наличия большого объема данных.

Когда организация сталкивается с выбором передачи конфиденциальной информации на аутсорсинг экспертам, какие есть варианты? Любая организация, передающая информацию на аутсорсинг, должна отредактировать всю личную информацию, такую как имя и личные идентификаторы. Вместо этого это может быть представлено псевдонимом — уникальным сопоставлением, таким как хеш-функция, — где уникальный идентификатор и PII хранятся только доверенным лицом (в данном случае NHS). Кроме того, полуконфиденциальная информация, которая может иметь значение для модели ML, должна быть абстрагирована. Например, географическое положение может быть мощным индикатором болезни, но необработанные данные можно использовать для обратного проектирования личных данных конкретного пациента. В этом случае объединение информации с потерей некоторой достоверности является эффективным компромиссом между расширением возможностей ИИ по прогнозированию и защитой конфиденциальности пациентов. Например, группировка определенных адресов по почтовым индексам или округам может быть хорошим компромиссом в этом пространстве.

Компромисс между безопасностью и предсказательной силой, вероятно, станет сложной проблемой для владельцев данных. ИИ способен объединять множество слабых сигналов и часто делать неожиданные выводы. В одном исследовании, проведенном CMU, исследователи обнаружили, что номера социального страхования были на удивление предсказуемы, а алгоритмы ИИ обычно могли реконструировать SSN из такой информации, как дата рождения и пол. Таким образом, возможность гарантировать, что ИИ не сможет восстановить вашу личную информацию, является нерешенной проблемой и, вероятно, очень зависит от данных. Тем не менее, стратегии максимальных усилий, подобные описанным выше, могут помочь смягчить большинство опасений.

В будущем этот вопрос может существенно измениться. Недавние разработки в области федеративного обучения могут обеспечить повышенную гибкость, когда хранение данных в помещении может стать более доступным. Родственная технология гомоморфного шифрования находится в разработке гораздо дольше. В гомоморфном шифровании вычисления происходят с зашифрованными данными без необходимости расшифровки данных, что значительно снижает проблему безопасности. У нас еще нет технологий, решающих эту проблему напрямую. Пока же обещания преимуществ ИИ слишком велики, чтобы большинство организаций могли ждать.

В Anomali мы регулярно имеем дело с конфиденциальной информацией, поскольку мы помогаем многим организациям по всему миру отфильтровывать данные по всему предприятию и фокусироваться на применимых угрозах безопасности. Мы решаем проблемы конфиденциальности с помощью локальных развертываний, таких как Anomali Enterprise; или с помощью очень жесткого контроля доступа и изоляции данных, таких как наша функция Trusted Circles для обмена информацией об угрозах в нашей платформе Threat Intelligence Platform, ThreatStream.

*Соглашение было подписано Royal Free NHS Trust, небольшим подчиненным подразделением гораздо более крупной NHS. Royal Free Trust состоит из трех больниц в Лондоне.

Конфиденциальность данных в мире аутсорсингового искусственного интеллекта

Конфиденциальность данных в мире аутсорсингового искусственного интеллекта

Вопросы по теме