我首先尝试输入Unicode字符,用UTF-8编码,然后重新解码。 Python愉快地回馈原始角色。
我看了一下编码的字符串,它是b'\xe6\x88\x91'
。我不明白这是什么,它看起来像3个十六进制数字。
然后我做了一些研究,我发现CJK集从4E00开始,所以现在我希望Python向我展示这个角色的样子。我怎么做?我是否需要将4E00转换为上述形式?
答案 0 :(得分:0)
您需要使用UTF-8编码对其进行解码:
>>> print(b'\xe6\x88\x91'.decode('UTF-8'))
我
通过对它进行解码,您将字节(这是b'...'
是)转换为Unicode字符串,这就是您显示/使用文本的方式。
答案 1 :(得分:0)
文本b'\xe6\x88\x91'
是字节的表示,它是unicode代码点\u6211
的utf-8编码,它是字符我。因此除了使用.decode('utf-8')
的unicode字符串之外,没有必要转换某些内容。