Я использую GATE для арабского языка под Linux, а при использовании Stanford Tagger нет тегов POS. Все параметры не были изменены (по умолчанию), что я могу сделать, чтобы выполнить эту задачу? Зависит ли эта проблема от параметров? Какой каталог установки тегера должен быть указан в параметре taggerBinary?
Стэнфорд Таггер с GATE
Ответы (1)
Сначала вы должны создать новый StanfordPOSTaggerPR в GATE и инициализировать Tagger с помощью модели arabic.tagger
, поставляемой с StanfordTagger.
Последняя версия GATE — 8.0, в ней используется StanfordTagger 3.4. Поэтому вам придется скачать модели, поставляемые с этой версией.
Затем вам нужно создать конвейер корпуса с SentenceSplitter и Tokeniser (я пробовал с UnicodeTokeniser
и RegExp SentenceSplitter
):
Наконец, попробуйте конвейер с образцом файла:
person
Chester Mc Allister
schedule
27.11.2014