В чем разница между токеном из одного слова и токеном из нескольких слов в crf++ для китайского языка?

Я использую crf++ для распознавания именованных сущностей на китайском языке. Первый столбец в файле поезда представляет собой токен, представляющий текущее слово. Я вижу, что кто-то использует только один китайский иероглиф в первом столбце, а кто-то использует много китайских иероглифов, таких как 中国。

crf++

jiffies 16.11.2015 источник

Ответы (1)

arrow_upward
0
arrow_downward

Китайское слово может состоять из 1 китайского символа или нескольких китайских символов:
中 представляет английское слово - среднее.
国 представляет другое английское слово - страна.
и 中国 представляют английское слово - Китай.
они одинаковы - текущее слово - так же, как "КИТАЙ" состоит из 5 английских символов, а 中国 состоит из 2 китайских символов - оба являются текущими словами в cft++.

YongZPub 16.11.2015

comment

Итак, должен ли я использовать 中国 B-LOC или 中 B-LOC 国 I-LOC? - jiffies; 16.11.2015

В чем разница между токеном из одного слова и токеном из нескольких слов в crf++ для китайского языка?

Ответы (1)

Вопросы по теме