Question

我从图书馆回来看起来是一个不正确的unicode字符串：

>>> title
u'Sopet\xc3\xb3n'

现在，那两个十六进制转义符是U + 00F3 LATIN SMALL LETTER O WITH ACUTE的UTF-8编码。据我所知，Python中的unicode字符串应该具有实际字符，而不是字符的UTF-8编码，所以我认为这是不正确的，可能是库中或输入中的错误，对吧？ / p>

问题是，我如何（a）认识到我的unicode字符串中包含UTF-8编码文本，以及（b）将其转换为正确的unicode字符串？

我对（a）感到难过，因为对于原始字符串（即，两者都是有效的字符，u'\xc3\xb3' ==³）没有任何错误，编码方式，但它们是不应该是那里的东西）

看起来我可以通过eval（）实现（b）前面的repr（）输出减去前面的“u”来得到一个str然后用UTF-8解码str：

>>> eval(repr(title)[1:]).decode("utf-8")
u'Sopet\xf3n'
>>> print eval(repr(title)[1:]).decode("utf-8")
Sopetón

但这似乎有些愚蠢。是否有官方批准的方法从unicode字符串中获取原始数据并将其视为常规字符串？

Answer 1

a）尝试通过以下方法。

b）中

>>> u'Sopet\xc3\xb3n'.encode('latin-1').decode('utf-8')
u'Sopet\xf3n'

Answer 2

您应该使用：

title.encode（ 'raw_unicode_escape'）

Python2：

print(u'\xd0\xbf\xd1\x80\xd0\xb8'.encode('raw_unicode_escape'))

Python3：

print(u'\xd0\xbf\xd1\x80\xd0\xb8'.encode('raw_unicode_escape').decode('utf8'))