我正在使用unix hexdump实用程序。我的输入文件是UTF-8编码的,包含单个字符ñ
,它是十六进制UTF-8中的C3 B1
。
hexdump test.txt
0000000 b1c3
0000002
咦?这显示B1 C3
- 与我的预期相反!有人可以解释一下吗?
为了获得预期的输出,我做了:
hexdump -C test.txt
00000000 c3 b1 |..|
00000002
我以为我理解编码系统..
答案 0 :(得分:39)
这是因为hexdump默认使用16位字,而您运行的是little-endian架构。因此,字节序列b1 c3
被解释为十六进制字c3b1
。 -C
选项强制hexdump使用字节而不是单词。
答案 1 :(得分:1)
我发现了两种避免这种情况的方法:
hexdump -C file
或
od -tx1 < file
我认为hexdump决定文件通常是16位字的小端是愚蠢的。非常困惑的IMO。