如何在Python中将unicode转换为其原始字符

时间:2014-11-26 19:57:57

标签: python unicode

我首先尝试输入Unicode字符,用UTF-8编码,然后重新解码。 Python愉快地回馈原始角色。 我看了一下编码的字符串,它是b'\xe6\x88\x91'。我不明白这是什么,它看起来像3个十六进制数字。

然后我做了一些研究,我发现CJK集从4E00开始,所以现在我希望Python向我展示这个角色的样子。我怎么做?我是否需要将4E00转换为上述形式?

2 个答案:

答案 0 :(得分:0)

您需要使用UTF-8编码对其进行解码:

>>> print(b'\xe6\x88\x91'.decode('UTF-8'))
我

通过对它进行解码,您将字节(这是b'...'是)转换为Unicode字符串,这就是您显示/使用文本的方式。

答案 1 :(得分:0)

文本b'\xe6\x88\x91'是字节的表示,它是unicode代码点\u6211的utf-8编码,它是字符我。因此除了使用.decode('utf-8')的unicode字符串之外,没有必要转换某些内容。