Маркировка POS несовместима с использованием модели Spacy en_core_web_lg

  • Теги POS для PROPN не работают ожидаемым образом с использованием модели en_core_web_lg.

  • Теги POS работают более предсказуемо с использованием модели _md.

Учитывая (плохо сформированное) предложение: «CK7, CK-20, GATA 3, PSA, все отрицательны».

При использовании модели _lg "CK7" помечается как СУЩЕСТВИТЕЛЬНОЕ (NNS).

При использовании модели _md «CK7» помечается как PROPN (NNP). Это правильно.

При использовании модели _lg и замене "CK7" в предложении для:

  • "CK1" помечено как PROPN

  • "CK2" с тегом PROPN

  • «CK3», «CK4» с тегами PROPN

  • «CK5» с тегом ADJ

  • "CK6" с тегом PROPN

  • "CK7" с тегом NOUN

  • "CK8" с тегом PROPN

  • «CK9» с тегом ADP

  • "CK22", "CK222", помечено как PROPN

При использовании модели _md и замене "CK7", как описано выше, все они были помечены как PROPN, как ожидалось.

Поскольку большинство предложений, которые я буду анализировать, будут плохо сформированы, я подумал, что "более глубокий" анализ зависимостей модели _lg < / strong> будет лучше, если вы обнаружите указанные выше проблемы с тегами POS.

Пожалуйста, сообщите:

  1. Как бороться с нелогичной пометкой POS при использовании модели en_core_web_lg?
  2. Какая модель лучше всего подходит для анализа плохо сформированных предложений с помощью зависимостей?

Большое тебе спасибо.


person Zippy242    schedule 07.04.2019    source источник
comment
Размещение тегов Pos очень зависит от контекста. Попробуйте написать то же предложение, но подставляя только одну работу, затем просмотрите позицию.   -  person Nathan McCoy    schedule 07.04.2019
comment
@Nathan - это именно то, что я сделал в своем опубликованном вопросе.   -  person Zippy242    schedule 07.04.2019
comment
О, я вижу. Я считаю, что вам придется сделать исключение в токенизации и pos, если это типично для вашего текста. Я постараюсь опубликовать ответ, чтобы сделать это   -  person Nathan McCoy    schedule 07.04.2019
comment
Какую версию Spacy вы используете?   -  person aab    schedule 07.04.2019
comment
@aab - 2.0.1 все проверено.   -  person Zippy242    schedule 08.04.2019


Ответы (1)


Так что это не прямой ответ на ваш вопрос, но если вы работаете с биомедицинскими данными, возможно, имеет смысл попробовать этот пакет: scispacy

Он не помечает CK-7 как существительное собственное, но он может обрабатывать множество таких терминов как сущностей, см. Различные дополнительные модели NER, которые поддерживают разные наборы тегов. Он все еще находится в разработке, и вам все еще может потребоваться добавить особые случаи / исключения для ваших данных, но я думаю, вы увидите лучшие и более последовательные результаты, чем со стандартными просторными моделями.

person aab    schedule 08.04.2019
comment
Большое спасибо! Я проверю это. - person Zippy242; 08.04.2019