JAX实现UAX 29 Unicode文本分段?

时间:2014-05-05 10:18:23

标签: javascript unicode text-segmentation

有人知道UAX #29, Unicode Text Segmentation的任何JavaScript实现吗?我对Word Boundaries特别感兴趣。

当我遇到XRegExp时,我很有希望,但它似乎使用\b的标准JavaScript实现。

2 个答案:

答案 0 :(得分:1)

https://github.com/orling/grapheme-splitterUAX #29 Grapheme Cluster Boundaries的纯js实现。

还有一项关于使用UAX#29实施Intl.Segmenter的ES提案,请参阅https://github.com/tc39/proposal-intl-segmenter

答案 1 :(得分:-1)

https://www.npmjs.com/package/node-word-boundaries是一个,但它需要Node用于一些unix本地unicode库;这不是纯粹的js。