应用错误收集

时间：2012-04-13 06:48:09

标签： encoding xml-parsing

我有一堆声明为encoding =“IBM1047”的XML文件，但它们似乎不是：

找出这些文件的真实编码会很高兴（我上面提到了'文件-i'和'enca'，但它仅限于斯拉夫语言（文件是法语）。）

我无法控制这些文件的生成方式;如果我能够确切地证明文件实际上不是IBM1047，那么我可能会让生产者对它做一些事情。

我如何证明？

一些特殊的字符：

答案 0 :(得分：0)

证明任何类数据流是以特定方式编码或不编码的唯一方法是，对于类的至少一个实例，确切地知道应该是什么字符在溪流中。如果您对特定测试用例中的字符（应该是）有一致意见，那么您可以计算应该在测试用例的IBM 1047（或任何其他）编码中的位，并将这些位与位进行比较你真的看到了。

当然，EBCDIC数据被破坏的一种简单方法是，它使用为某些其他EBCDIC代码页设计的转换表的方式通过某些EBCDIC / ASCII网关。但是如果您正在使用EBCDIC数据，那么您可能已经知道了。