почему GATE не соответствует словам в моем списке арабского географического справочника?

Я создал свой список, содержащий несколько арабских слов, затем добавил запись, связанную с этим списком, в файле def и поместил два файла в один и тот же каталог, а затем в свой код Java, который я написал:

FeatureMap params = Factory.newFeatureMap();
params.put("encoding", "UTF-8");       
params.put("listsURL","file:/D:/ThesisProj/Gazetteers/lists.def");
LanguageAnalyser gazetteer = (LanguageAnalyser)Factory.createResource("arabic.ArabicGazetteer",params);
gazetteer.init();

когда список и файл - я сопоставляю слова из него - содержащие английские слова, сопоставление выполняется, поскольку полученные аннотации имеют аннотацию поиска с совпадающими словами, но когда я пытаюсь использовать арабский язык и иметь только арабские слова как в списке, так и сравнивая файл, в полученных аннотациях нет аннотации поиска, может ли кто-нибудь помочь мне заставить GATE распознавать арабские символы и сопоставлять их, я думаю, что utf-8 не подходит


person Suzn CB    schedule 31.07.2019    source источник


Ответы (1)


Это может быть проблема с кодировкой символов. Вы можете создать список, содержащий некоторые арабские слова, используя кодировку, отличную от utf-8...

Также проверьте кодировку документов, она тоже может быть нарушена.

GATE определенно может работать с арабским языком. Вы можете легко проверить, все ли в порядке в графическом интерфейсе.

Посмотрите два простых снимка экрана, созданных с помощью плагина GATE Язык: арабский

Проверьте, нормально ли выглядит список географических справочников:

арабский справочник

Проверьте, нормально ли выглядит документ:

арабский документ

person dedek    schedule 31.07.2019
comment
Спасибо за ответ. Я пробую их в графическом интерфейсе, но он не отображает их в правильном формате, он отображает странные символы. Итак, как я могу проверить кодировку как для справочника, так и для документа, потому что я установил utf-8 в качестве параметра в справочнике, а документ представляет собой файл txt - person Suzn CB; 01.08.2019
comment
Вам нужно использовать одну и ту же кодировку в вашем текстовом редакторе и в GATE. Каким текстовым редактором вы пользуетесь для редактирования списков и документов? Какую кодировку он использует? - person dedek; 01.08.2019