标签: php internationalization
如果我没有错,中文(和其他语言)不会使用空格' '作为单词分隔符。
' '
那么这可能是一个在国际上有效的好算法?
答案 0 :(得分:3)
我见过的很多技巧就是简单地计算使用的字符数,然后将其除以中文中每个字的平均字符数。通常用于此的数字是1.5
如果您的中文文字有1500个字符,那么它的长度大约为1000字。
除了解释文本本身之外,我不知道计算单词的更准确方法。这实际上意味着理解所用单词的上下文,因为中文字符有时可以单独用作单词,也可以作为复合单词的一个组成部分。