Распознавание именованных объектов на основе точного словаря в Стэнфорде

У меня есть словарь именованных сущностей, извлеченный из Википедии. Я хочу использовать его как словарь NER. Я хотел знать, как я могу использовать Stanford-NER с этими моими данными. Я также скачал Lingpipe, хотя понятия не имею, как им пользоваться. Буду признателен за любую информацию.

Спасибо за вашу помощь.


person Hedieh    schedule 11.06.2016    source источник
comment
У LingPipe есть учебник по NE, который охватывает регулярное выражение, точное и статистическое извлечение именованных сущностей: alias-i.com/lingpipe/demos/tutorial/ne/read-me.html Это серверно-ориентированный Java API с демонстрациями запуска из командной строки в руководстве.   -  person Bob Carpenter    schedule 13.06.2016


Ответы (3)


Вы можете использовать распознавание именованных объектов по словарю (или на основе регулярных выражений) в Stanford CoreNLP. См. аннотатор RegexNER. Для некоторых приложений мы запускаем это с довольно большими словарями сущностей. Тем не менее, для нас это обычно вторичный инструмент по сравнению с использованием статистического (на основе CRF) NER.

person Christopher Manning    schedule 17.09.2016

Stanford-NER основан на CRF, которая представляет собой статистическую модель. Боюсь, он не поддерживает дополнительный словарь или лексикон. Однако вы можете обучить новую модель в соответствии со своей задачей.

person Friedmannn    schedule 25.08.2016
comment
Спасибо @Friedmannn. Я немного почитал о Stanford NER и понял, как это работает. Я также пытался использовать его Gazette, но это не помогло. Я переключился на LingPipe, и он отлично работает. - person Hedieh; 13.09.2016

вы можете использовать MER: http://labs.fc.ul.pt/mer/

минимальный распознаватель сущностей, разработанный в bash: https://github.com/lasigeBioTM/MER

для этого требуется только лексикон (текстовый файл) в качестве входных данных

person FCouto    schedule 21.09.2017