Какие естественные языки поддерживает Google Cloud DLP?

Я рассматриваю возможность использования Cloud DLP для анонимизации своих данных. Однако я не могу найти явного упоминания о том, какие языки поддерживаются. API-интерфейс AWS Comprehend для обнаружения PII поддерживает только английский язык, поэтому ищем альтернативу.


person kylejmcintyre    schedule 01.03.2021    source источник


Ответы (1)


На странице с описанием детекторов вы можете найти детекторы по странам.

https://cloud.google.com/dlp/docs/infotypes-reference

Для глобальных детекторов под номером PHONE_NUMBER нет информации о поддерживаемых языках, но вы можете протестировать поддержку вашего языка на демонстрационной странице.

https://cloud.google.com/dlp/demo/#!/

Например, если вы напишете по-испански Mi teléfono es 600111222 (мой телефон 600111222), он обнаружит НОМЕР ТЕЛЕФОНА с ВЕРОЯТНОЙ вероятностью, но если вы напишете Me puedes llamar al 600111222 (вы можете позвонить мне по номеру 600111222), он обнаружит только GENERIC_ID с НИЗКОЙ вероятностью.

Кроме того, если в предыдущих примерах вы добавите префикс страны (+34600111222), вероятность возрастет до VERY_LIKELY в первом, а второй обнаружит PHONE_NUMBER как ВОЗМОЖНЫЙ

Таким образом, он работает с другими языками и использует контекст для улучшения соответствия, но вам следует поиграть с некоторыми образцами, чтобы проверить точность в вашем конкретном случае использования.

person Diego Rodríguez    schedule 02.03.2021