如何检测文件的编码?

时间:2012-01-12 15:03:32

标签: go

我正在尝试使用Go找出Windows上的文件编码。做了一些研究,我发现了许多关于Mozilla的Charset Detectors(chardet)的建议,但它们很难编译,我没有运气。

我也发现了libguess,它似乎在Linux中被广泛使用,但我无法在Windows中运行。

最好的方法是什么?是否有一个事实上的标准库可以与Windows上的Go一起使用?

2 个答案:

答案 0 :(得分:1)

您可以使用python包:chardet

答案 1 :(得分:0)

您可能对Enca极端天真的Charset Analyzer感兴趣。我猜你可以尝试使用所有候选编码来读取文件,并计算每次尝试距离语言的“标准”字符频率分布的距离。 Enca需要一些语言信息,但我不确定它是否使用这种方法。 (这只是一个想法,可能会被误导。)