是否可以确定数据是英文还是中文?
答案 0 :(得分:7)
例如,这可以使用统计方法。英语语言具有非常独特的字符分布,并且字符在另一个字符后面显示非常独特的分布(称为1级模型)。
如果'e'是最常见的符号,则该语言不太可能 来自欧洲。
通过查看Unicode字符值(必要时在字符集之间进行转换)来进行这种区分也可能相当简单(但可能不是100%可靠)。如果存在Unicode值大于127的字符,则英语有点不太可能(请注意,有些符号可用于€) 如果有许多字符具有数千的Unicode值,则东亚语言变得越来越可能,代码> 65535保证是中国人。
答案 1 :(得分:5)
我的想法是计算Unicode表中字符的平均位置。由于中文字符位于ASCII之后(例如,在值127之后),您可以轻松确定文本是英文还是中文。
编辑:基本上同样的达蒙补充道。 > _>