Я использую crf++ для распознавания именованных сущностей на китайском языке. Первый столбец в файле поезда представляет собой токен, представляющий текущее слово. Я вижу, что кто-то использует только один китайский иероглиф в первом столбце, а кто-то использует много китайских иероглифов, таких как 中国。
В чем разница между токеном из одного слова и токеном из нескольких слов в crf++ для китайского языка?
Ответы (1)
Китайское слово может состоять из 1 китайского символа или нескольких китайских символов:
中 представляет английское слово - среднее.
国 представляет другое английское слово - страна.
и 中国 представляют английское слово - Китай.
они одинаковы - текущее слово - так же, как "КИТАЙ" состоит из 5 английских символов, а 中国 состоит из 2 китайских символов - оба являются текущими словами в cft++.
person
YongZPub
schedule
16.11.2015
Итак, должен ли я использовать 中国 B-LOC или 中 B-LOC 国 I-LOC?
- person jiffies; 16.11.2015