Snowball Stemming: определение нулевой области

Я пытаюсь понять алгоритм снежного кома. У HW90 был аналогичный вопрос с примерами, но не мой. Алгоритм использует две области R1 и R2, которые определяются следующим образом:

R1 - это область после первой негласной, следующей за гласной, или нулевая область в конце слова, если такой негласной нет.

R2 — это область после первой негласной, следующей за гласной в R1, или пустая область в конце слова, если такой негласной нет.

http://snowball.tartarus.org/texts/r1r2.html

Я не понимаю, что такое "нулевая область в конце слова". Может ли кто-нибудь дать мне несколько примеров для этого, пожалуйста?


person NewbieXXL    schedule 06.09.2016    source источник


Ответы (1)


Нулевая область означает пустую область, без букв. Вы пропустили примеры на странице документации:

Ниже показаны R1 и R2 для ряда английских слов,

b   e   a   u   t   i   f   u   l
                  |<------------->|    R1
                          |<----->|    R2

Буква t — первая негласная после гласной в слове beautiful, поэтому R1 — iful. В сущности, буква f — первая негласная после гласной, поэтому R2 — это ul.

b   e   a   u   t   y
                  |<->|    R1
                    ->|<-  R2 

По красоте последняя буква y классифицируется как гласная. Опять же, буква t — это первая негласная буква, следующая за гласной, поэтому R1 — это просто последняя буква, y. R1 не содержит негласных, поэтому R2 является нулевой областью в конце слова.

b   e   a   u
            ->|<-  R1
            ->|<-  R2
person bigOther    schedule 07.09.2016