Теги POS для PROPN не работают ожидаемым образом с использованием модели en_core_web_lg.
Теги POS работают более предсказуемо с использованием модели _md.
Учитывая (плохо сформированное) предложение: «CK7, CK-20, GATA 3, PSA, все отрицательны».
При использовании модели _lg "CK7" помечается как СУЩЕСТВИТЕЛЬНОЕ (NNS).
При использовании модели _md «CK7» помечается как PROPN (NNP). Это правильно.
При использовании модели _lg и замене "CK7" в предложении для:
"CK1" помечено как PROPN
"CK2" с тегом PROPN
«CK3», «CK4» с тегами PROPN
«CK5» с тегом ADJ
"CK6" с тегом PROPN
"CK7" с тегом NOUN
"CK8" с тегом PROPN
«CK9» с тегом ADP
"CK22", "CK222", помечено как PROPN
При использовании модели _md и замене "CK7", как описано выше, все они были помечены как PROPN, как ожидалось.
Поскольку большинство предложений, которые я буду анализировать, будут плохо сформированы, я подумал, что "более глубокий" анализ зависимостей модели _lg < / strong> будет лучше, если вы обнаружите указанные выше проблемы с тегами POS.
Пожалуйста, сообщите:
- Как бороться с нелогичной пометкой POS при использовании модели en_core_web_lg?
- Какая модель лучше всего подходит для анализа плохо сформированных предложений с помощью зависимостей?
Большое тебе спасибо.