Question

python 2.7

raw = '%C3%BE%C3%A6%C3%B0%C3%B6' #string from wsgi post_data
raw_uni = raw.replace('%', r'\x')
raw_uni # gives '\\xC3\\xBE\\xC3\\xA6\\xC3\\xB0\\xC3\\xB6'
print raw uni #gives '\xC3\xBE\xC3\xA6\xC3\xB0\xC3\xB6'
uni = unicode(raw_uni, 'utf-8')
uni #gives u'\\xC3\\xBE\\xC3\\xA6\\xC3\\xB0\\xC3\\xB6+\\xC3\\xA9g'
print uni #gives \xC3\xBE\xC3\xA6\xC3\xB0\xC3\xB6+\xC3\xA9g

但是，如果我将raw_uni更改为：

raw_uni = '\xC3\xBE\xC3\xA6\xC3\xB0\xC3\xB6'

现在做：

uni = unicode(raw_uni, 'utf-8')
uni #gives u'\xfe\xe6\xf0\xf6'
print uni #gives þæðö

这就是我想要的。

如何在raw_uni中删除这个额外的'\'，或者利用它只在字符串的repr版本中存在的事实？更重要的是，为什么unicode（raw_uni，'utf-8'）使用字符串的repr版本???

感谢

Answer 1

您应该使用urllib.unquote，而不是手动替换：

>>> import urllib
>>> raw = '%C3%BE%C3%A6%C3%B0%C3%B6'
>>> urllib.unquote(raw)
'\xc3\xbe\xc3\xa6\xc3\xb0\xc3\xb6'
>>> unicode(urllib.unquote(raw), 'utf-8')
u'\xfe\xe6\xf0\xf6'

这里的根本问题是你对十六进制转义是什么有一个根本的误解。不可打印字符的repr可以表示为十六进制转义，它看起来像一个反斜杠，后跟一个'x'，后跟两个十六进制字符。这也是您将这些字符键入字符串文字的方式，但它仍然只是一个字符。你的replace行不会将原始字符串转换为十六进制转义符，它只是用文字反斜杠字符后跟'x'替换每个'％'。

请考虑以下示例：

>>> len('\xC3')         # this is a hex escape, only one character
1
>>> len(r'\xC3')        # this is four characters, '\', 'x', 'C', '3'
4
>>> r'\xC3' == '\\xC3'  # raw strings escape backslashes
True

如果由于某种原因您无法使用urllib.unquote，则以下情况应该有效：

raw_uni = re.sub('%(\w{2})', lambda m: chr(int(m.group(1), 16)), raw)

wsgi - 从post处理unicode字符

1 个答案: