Акшай Шривастава и Рейна Карисса

Личная информация (PII) определяется как любая информация, которая может использоваться отдельно или в сочетании с другими соответствующими данными для идентификации конкретного человека. Ниже приведены примеры того, что составляет PII:

  • Национальный идентификационный номер (например, номер социального страхования в США)
  • Номера банковских счетов
  • Номер паспорта
  • Номер водительских прав
  • Номера дебетовых/кредитных карт
  • Полное имя
  • Домашний адрес
  • Город
  • Состояние
  • Почтовый индекс
  • Страна
  • телефон
  • Возраст, дата рождения, особенно если не указано конкретно
  • Пол или раса
  • Веб-куки

Важно понимать, что информация, не относящаяся к PII, например, место рождения, может стать PII всякий раз, когда становится общедоступной дополнительная информация, которая в сочетании с другой доступной информацией может быть использована для идентификации человека.

Каждый человек несет ответственность за защиту своих данных, включая стороны или агентства, которым он разрешает доступ к своей информации. Точно так же стороны или агентства должны соблюдать конфиденциальность этой информации и воздерживаться от любого поведения, которое указывало бы на небрежное или небрежное отношение к такой информации. Потеря PII может привести к существенному ущербу для отдельных лиц, если она будет утеряна в результате кражи личных данных или другого мошеннического использования информации.

Концепция PII стала более распространенной, поскольку через Интернет передается все больше частной информации, которую можно легко использовать, если она не защищена должным образом. Затем возникает проблема, поскольку все больше типов PII распространяется в Интернете в виде неструктурированного текста, а угрозы кибербезопасности продолжают развиваться и становиться все более изощренными.

Машинное обучение можно использовать для изучения конкретного алгоритма и автоматического улучшения его на основе имеющегося опыта и данных. В современных конвейерах и архитектурах потоковых данных форма и свойства данных PII могут быстро меняться, что затрудняет их маркировку и защиту до того, как данные будут взломаны для мошеннического использования. Используя машинное обучение, это позволяет программным приложениям более точно предсказывать, что составляет PII, без явного программирования для этого.

Одним из методов применения машинного обучения для обнаружения PII является использование Microsoft Presidio, контекстно-зависимой, подключаемой и настраиваемой службы защиты данных и анонимизации данных PII для текста и изображений. Он предоставляет модули быстрой идентификации и анонимизации для частных лиц в тексте и изображениях, таких как номера кредитных карт, имена, местоположения, номера социального страхования, биткойн-кошельки, номера телефонов в США, финансовые данные и многое другое.

Данные из этих изображений, отсканированных PDF-файлов, таблиц и форм могут быть ручными и дорогостоящими процессами, поэтому для автоматического извлечения текста, рукописного ввода и других данных можно использовать другой метод машинного обучения. Amazon Textract извлекает данные, выходящие за рамки простого оптического распознавания символов (OCR), и повышает эффективность этих обзоров. Затем полученные извлеченные данные можно обработать через службу обнаружения PII, которая идентифицирует правильную PII.

Как использовать Textract и Presidio для создания конвейера для обнаружения PII.

1.1. Установить текст

1.2. Установить Пресидио

1.3. Установите Clean text
Чтобы удалить специальные символы из текста

2. Импортируйте необходимые библиотеки

3. Подключитесь к Google Диску
Поскольку мы используем Google Colab, это важный шаг для импорта файла и сохранения кода в облаке.

4. Определите путь к файлу

5. Извлеките текст из пути к файлу с помощью Texttract

6. Очистите текстовое содержимое

7. Запустите presidio, чтобы найти PII

8. Перечислите персональные данные