计算字符串中的单词数(不仅是拉丁语)

时间:2011-12-20 23:45:16

标签: php internationalization

如果我没有错,中文(和其他语言)不会使用空格' '作为单词分隔符。

那么这可能是一个在国际上有效的好算法?

1 个答案:

答案 0 :(得分:3)

我见过的很多技巧就是简单地计算使用的字符数,然后将其除以中文中每个字的平均字符数。通常用于此的数字是1.5

如果您的中文文字有1500个字符,那么它的长度大约为1000字。

除了解释文本本身之外,我不知道计算单词的更准确方法。这实际上意味着理解所用单词的上下文,因为中文字符有时可以单独用作单词,也可以作为复合单词的一个组成部分。