找出文件编码

时间:2018-03-30 10:26:10

标签: utf-8 ms-word character-encoding

我无法找到文件的文件编码。它是MS Office产品的自动更正列表文件(* .acl)。它由用于自动将name替换为value的映射的名称/值对组成。我使用十六进制编辑器查看了它,发现了以下匹配项。

Char - HEX   - Unicode Code Point - Unicode HEX repr.
a -    00 61 - U+0061             - 00 61 
A -    00 41 - U+0041             - 00 41
ä -    00 E4 - U+00E4             - C3 A4
© -    00 A9 - U+00A9             - C2 A9

我认识到的模式是unicode代码点仅用于以十六进制保存char,而不是utf8 char的正确十六进制值。 (我为ÄöÖüÜß和其他一些[a-ZA-Z]字符验证了这个列表的模式,它适用于任何一个。但我想你不需要看到这个来理解模式。)

控制字符00 00 00 09似乎也用作键和值的分隔,00 00 00 03用于分隔键/值对。

我首先考虑这个问题的动机:我想使用脚本来自行操作这个文件。 VBA不是一个选择。而且我无法正确地将此文件输入到我的脚本中。我希望你能帮我理解所使用的字符编码。

提前感谢您的时间。

0 个答案:

没有答案