应用错误收集

Java中的自动检测字符编码

时间：2012-02-07 18:13:17

标签： java encoding io bufferedreader

似乎是一个相当热门的问题，但我还没有找到解决方案;也许是因为它有如此许多风味。虽然这是。我正在尝试阅读一些逗号分隔文件（偶尔分隔符可能比逗号更独特，但逗号现在就足够了。）

这些文件应该在整个行业中标准化，但最近我们已经看到了许多不同类型的字符集文件。我希望能够设置一个BufferedReader来弥补这一点。

这样做的标准方法是什么，并检测它是否成功？

我对这种方法的第一个想法是循环遍历字符集简单 - >复杂，直到我可以无异常地读取文件。虽然不完全理想......

感谢您的关注。

1 个答案:

答案 0 :(得分：11)

Mozilla的 universalchardet 应该是有效的探测器。 juniversalchardet是它的java端口。还有一个港口。阅读此SO以获取更多信息Character Encoding Detection Algorithm