什么是超长表格/编码?

时间:2011-08-18 19:37:23

标签: unicode utf-8 character-encoding sequences codepoint

阅读Wikipedia article on UTF-8,我一直在想超长一词。该术语使用的次数不同,但本文未对其含义提供定义或参考。

我想知道是否有人可以解释这个词及其目的。

2 个答案:

答案 0 :(得分:18)

这是一个代码点的编码,它需要的代码单元比它需要的多。

例如,U + 0020由单字节0x20以UTF-8表示。如果你以正常方式解码两个字节0xc0 0xa0,你仍然会回到U + 0020,但那是无效的表示。

Unicode Corrigendum #1有更多信息,尤其是表3.1B。

答案 1 :(得分:5)

理论上,UTF-8允许不同的字符表示也具有较短的字符。例如,您可以通过将MSB设置为零来将ASCII字符编码为两个字节。 UTF-8规范明确禁止这样做。