在python中从字符串生成unicode obj?

时间:2015-01-17 17:52:23

标签: python unicode

test = unicode('\x03B', 'utf-16BE', 'ignore')

产生胡言乱语。我想测试一个分号。如果我用'\x03~'替换十六进制,我会得到一个分号。

我的问题是为什么?我以为分号的unicode值是003B?

谢谢!

2 个答案:

答案 0 :(得分:1)

您未能正确指定UTF-16编码的分号,该分号由两个八位字节\x00\x3B组成。正确的陈述是:

test = unicode('\x00\x3B', 'utf-16BE', 'ignore')

按预期生成Unicode分号。

答案 1 :(得分:1)

有多个字符看起来像分号。自从你 提到'\x03~'和utf-16be编码,你必须指的是 希腊问号。 (下面,我会将'\x03~'表示为b'\x03~',以使此答案有效 在Python2.7和Python3中。)

In [207]: b'\x03~'.decode('utf-16be')
Out[207]: u'\u037e'

In [208]: import unicodedata as UDAT

In [209]: UDAT.name(u'\u037e')
Out[209]: 'GREEK QUESTION MARK'

In [206]: u'\N{GREEK QUESTION MARK}' == u';'
Out[206]: True

In [198]: u'\N{GREEK QUESTION MARK}'.encode('utf-16be')
Out[198]: b'\x03~'

因此,以utf-16be编码的unicode U + 037E(GREEK QUESTION MARK)为b'\x03~',而不是b'\x03'


请注意,这与U + 003B(SEMICOLON)不同:

In [211]: u';'.encode('utf-16be')
Out[211]: b'\x00;'

In [212]: UDAT.name(u';')
Out[212]: 'SEMICOLON'

In [214]: hex(ord(u';'))
Out[214]: '0x3b'

In [216]: u'\u003b' == u'\N{SEMICOLON}'
Out[216]: True

In [217]: u'\N{GREEK QUESTION MARK}' == u'\N{SEMICOLON}'
Out[217]: False