标签: javascript southeast-asian-languages word-boundaries
我的目标是将SE亚洲文本分解为单词,最好是在浏览器中。虽然对于使用正则表达式的西方语言或简单地拆分空格来说这是微不足道的,但对于某些脚本来说这是一个非常棘手的问题。例如。在这一行找到单词边界:
เขาสามารถทำในสิ่งที่ต้องการต่อไปได้
现代浏览器执行检测字边界。双击上面的文字可以观察到这一点。只有行内的单词会突出显示,而不是整个块。根据我迄今为止的研究,这个单词边界确定是由每个平台上的本地库完成的。是否有可能通过JavaScript获得这些单词突破界限?