В чем разница между токеном из одного слова и токеном из нескольких слов в crf++ для китайского языка?

Я использую crf++ для распознавания именованных сущностей на китайском языке. Первый столбец в файле поезда представляет собой токен, представляющий текущее слово. Я вижу, что кто-то использует только один китайский иероглиф в первом столбце, а кто-то использует много китайских иероглифов, таких как 中国。


person jiffies    schedule 16.11.2015    source источник


Ответы (1)


Китайское слово может состоять из 1 китайского символа или нескольких китайских символов:
中 представляет английское слово - среднее.
国 представляет другое английское слово - страна.
и 中国 представляют английское слово - Китай.
они одинаковы - текущее слово - так же, как "КИТАЙ" состоит из 5 английских символов, а 中国 состоит из 2 китайских символов - оба являются текущими словами в cft++.

person YongZPub    schedule 16.11.2015
comment
Итак, должен ли я использовать 中国 B-LOC или 中 B-LOC 国 I-LOC? - person jiffies; 16.11.2015