Распознавание вложенных именованных объектов с помощью Google Cloud NLP

Мы можем выполнить распознавание простых именованных объектов, загрузив полные документы в формате pdf, пометив простые объекты и проведя обучение.

Но поддерживает ли платформа Google Cloud AutoML Распознавание вложенных именованных объектовn?


person Hector Blandin    schedule 11.03.2020    source источник


Ответы (1)


Не по умолчанию. Из того, что я могу сказать, не обязательно существует стандартизированный метод для реализации распознавания вложенных именованных объектов, что может быть одной из причин, по которым он не поддерживается. Я предполагаю, что для этого в рамках одного процесса каждая аннотация должна содержать несколько аннотаций, что невозможно:

Каждая аннотация может охватывать до десяти токенов (слов). Они не могут перекрываться; start_offset аннотации не может быть между start_offset и end_offset аннотации в том же документе. [документы]

Однако вы, вероятно, могли бы реализовать это самостоятельно, основываясь на своем понимании вложенного NER. Обучите общую модель извлечению первичных объектов (более крупных содержащих объектов). Затем обучите вторичную модель извлечению вторичных объектов (сущностей внутри основного объекта). Запустите вторичную модель только на выходных данных первичной модели. Потенциально вы также должны реализовать некоторые условия, такие как количество токенов.

person MyNameIsCaleb    schedule 17.03.2020