文件大小采用UTF-8编码?

时间:2014-04-24 08:25:48

标签: utf-8

我创建了一个UTF-8编码的文件,但我不了解磁盘占用大小的规则。这是我的完整研究:

  1. 首先,我创建了一个印地语字母'क'并且Windows 7上的文件大小为
    8个字节。

  2. 现在有两个字母'कक'文件大小为11个字节。

  3. 现在有三个字母'ककक'文件大小为14个字节。

  4. 有人可以解释一下为什么显示这样的尺寸吗?

2 个答案:

答案 0 :(得分:7)

前三个字节用于BOM (Byte Order Mark) EF BB BF

然后,字节E0 A4 95编码字母क。

然后字节0D 0A编码一个回车符。

总计:8个字节。对于您添加的每个字母,您需要三个字节。

答案 1 :(得分:0)

在基于 linux 的系统上,您可以使用 hexdump 获取 hexadecimal 转储(Tim 在他的回答中使用)并了解一个字符分配了多少字节。

echo -n a | hexdump -C echo -n क | hexdump -C

这是上面两个命令的输出。 enter image description here