维基百科上的汉字编码是什么?

时间:2011-04-10 05:41:22

标签: utf-8 character-encoding cjk url-encoding

我正在研究维基百科上的汉字编码,我无法弄清楚他们在使用什么。例如,“的”被编码为“%E7%9A%84”(see here)。这是三个字节,但是所描述的编码on this page都没有使用三个字节来表示中文字符。例如,UTF-8使用2个字节。

我基本上试图将这三个字节与实际角色相匹配。关于它可能是什么编码的任何建议?

3 个答案:

答案 0 :(得分:24)


>>> c='\xe7\x9a\x84'.decode('utf8')
>>> c
u'\u7684'
>>> print c
的

<小时/> 虽然Unicode将其编码为16位,但utf8将其分解为3个字节。

答案 1 :(得分:17)

维基百科页面的标题包括:

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

所以页面是UTF-8。

答案 2 :(得分:4)

您提供的示例是IRI

IRI使用UTF8编码。 UTF8实现unicode,在unicode中,每个字符都有一个代码点,即所有中文字符的0x4E00和0x9FFF(2字节)之间。

但是UTF8不会通过存储代码点来编码字符(UTF32会这样做)。相反,它使用more complex standard,使所有中文表意文字长2 或3 字节。