Javascript-реализация сегментации текста UAX 29 Unicode?

Кто-нибудь знает о каких-либо реализациях JavaScript для UAX #29, сегментация текста Unicode? Меня особенно интересуют границы слов.

Я был полон надежд, когда наткнулся на XRegExp, но, похоже, он использует стандартную реализацию JavaScript для \b.


person Paul Butcher    schedule 05.05.2014    source источник


Ответы (2)


https://github.com/orling/grapheme-splitter — это чистая реализация js UAX #29 Границы кластера Grapheme.

Существует также предложение ES по реализации Intl.Segmenter с использованием UAX #29, см. https://github.com/tc39/proposal-intl-segmenter.

person Junliang Huang    schedule 30.12.2017

https://www.npmjs.com/package/node-word-boundaries является одним, но для некоторых собственных юникодных библиотек Unix требуется Node; это не чистый js.

person Rich    schedule 26.07.2016