UTF8 Bomless vs Cp1252

时间:2012-06-09 23:09:21

标签: java eclipse unicode

从物理字节流的角度来看,对于使用UTF8存储的每个文件,我认为UTF8 bomless与Cp1252完全相同,是真的吗?

2 个答案:

答案 0 :(得分:6)

绝对不是真的。如果要使其成为真正的语句,则需要添加“如果我只使用US-ASCII字符”这一子句。但这是一个巨大的“如果”。如果我们只使用US-ASCII字符,则甚至不存在许多编码。许多编码(包括UTF-8)确保所有US-ASCII字符都使用相同的单字节表示进行编码。

答案 1 :(得分:0)

没有。 UTF-8不仅覆盖了更大的字符集,而且代码点U+7f上方的任何unicode字符都将由UTF-8中的多个字节和CP-1252中的单个字节进行编码。 CP-1252和ISO-8859-1(也称为Latin-1)之间有更密切的对应关系,但即使是这些也只是小而重要的方式不同。这种差异解释了许多最常见的编码问题。

举一个例子,左单曲引号由unicode代码点U+2018表示。在CP-1252中,它被编码为字节0x91。该字符在Latin-1中根本不存在,在UTF-8中,它由三字节序列0xe28098编码。

更一般地说,可以说Latin-1和UTF-8是基于Unicode的编码,因为所有编码都可以在算法上映射到unicode代码点,并且将代表该字符,而CP-1252是非编码-unicode编码。用于表示字符的字节与其unicode代码点之间没有常规对应关系。