Я рассматриваю возможность использования Cloud DLP для анонимизации своих данных. Однако я не могу найти явного упоминания о том, какие языки поддерживаются. API-интерфейс AWS Comprehend для обнаружения PII поддерживает только английский язык, поэтому ищем альтернативу.
Какие естественные языки поддерживает Google Cloud DLP?
Ответы (1)
На странице с описанием детекторов вы можете найти детекторы по странам.
https://cloud.google.com/dlp/docs/infotypes-reference
Для глобальных детекторов под номером PHONE_NUMBER нет информации о поддерживаемых языках, но вы можете протестировать поддержку вашего языка на демонстрационной странице.
https://cloud.google.com/dlp/demo/#!/
Например, если вы напишете по-испански Mi teléfono es 600111222
(мой телефон 600111222), он обнаружит НОМЕР ТЕЛЕФОНА с ВЕРОЯТНОЙ вероятностью, но если вы напишете Me puedes llamar al 600111222
(вы можете позвонить мне по номеру 600111222), он обнаружит только GENERIC_ID с НИЗКОЙ вероятностью.
Кроме того, если в предыдущих примерах вы добавите префикс страны (+34600111222), вероятность возрастет до VERY_LIKELY в первом, а второй обнаружит PHONE_NUMBER как ВОЗМОЖНЫЙ
Таким образом, он работает с другими языками и использует контекст для улучшения соответствия, но вам следует поиграть с некоторыми образцами, чтобы проверить точность в вашем конкретном случае использования.