Какие правила сегментации мы можем использовать в латинских языках для написания тестовых примеров?

Нам нужно написать тестовые примеры для логики сегментации для языков, основанных на латинице. несмотря на то, что я нашел много сайтов, документы для правил логики сегментации, связанные с этим я получил одну ссылку "http://www.lisa.org/fileadmin/standards/srx20.pdf", но мы не хотим это использовать. Теперь мы ищем более подходящие правила сегментации, которые могут поддерживать все латинские языки, и все возможности, такие как знаки препинания, точка, запятая и другие символы, используемые для языка на основе латыни, могут быть протестированы с использованием этих правил сегментации после сегментации?

Спасибо в ожидании, Манджушри


person Manjushree    schedule 03.02.2010    source источник


Ответы (1)


Лучшим источником общих правил сегментации для языков, основанных на латинице, является стандартное приложение Unicode, которое касается сегментации текста: http://www.unicode.org/reports/tr29/

В частности, см. правила сегментации предложений в этом приложении.

person Roy Sharon    schedule 16.08.2010