我在python中写蜘蛛。我得到了一个列表,其中包含一个元素[u'\xb9\xd8\xd3\xda\xbf\xaa\xd5\xb9]
,它是GBK代码"关于开展"。我尝试过一些方法,但都没有。
答案 0 :(得分:0)
通常,编码字符串为str
,解码为unicode
。你得到的编码unicode
是由错误的解码引起的。您可以通过str
将其转换回encode('latin1')
,然后按GBK解码:
>>> text = u'\xb9\xd8\xd3\xda\xbf\xaa\xd5\xb9'
>>> text = text.encode('latin1')
>>> text
'\xb9\xd8\xd3\xda\xbf\xaa\xd5\xb9'
>>> text = text.decode('gbk')
>>> text
u'\u5173\u4e8e\u5f00\u5c55'
然后你可以打印出来。