应用错误收集

例如，这可以使用统计方法。英语语言具有非常独特的字符分布，并且字符在另一个字符后面显示非常独特的分布（称为1级模型）。

如果'e'是最常见的符号，则该语言不太可能来自欧洲。

通过查看Unicode字符值（必要时在字符集之间进行转换）来进行这种区分也可能相当简单（但可能不是100％可靠）。如果存在Unicode值大于127的字符，则英语有点不太可能（请注意，有些符号可用于€）如果有许多字符具有数千的Unicode值，则东亚语言变得越来越可能，代码＆gt; 65535保证是中国人。

我的想法是计算Unicode表中字符的平均位置。由于中文字符位于ASCII之后（例如，在值127之后），您可以轻松确定文本是英文还是中文。

编辑：基本上同样的达蒙补充道。＆GT; _＆GT;

我可以确定数据是英文还是中文？

2 个答案: