Question

我首先尝试输入Unicode字符，用UTF-8编码，然后重新解码。 Python愉快地回馈原始角色。我看了一下编码的字符串，它是b'\xe6\x88\x91'。我不明白这是什么，它看起来像3个十六进制数字。

然后我做了一些研究，我发现CJK集从4E00开始，所以现在我希望Python向我展示这个角色的样子。我怎么做？我是否需要将4E00转换为上述形式？

Answer 1

您需要使用UTF-8编码对其进行解码：

>>> print(b'\xe6\x88\x91'.decode('UTF-8'))
我

通过对它进行解码，您将字节（这是b'...'是）转换为Unicode字符串，这就是您显示/使用文本的方式。

Answer 2

文本b'\xe6\x88\x91'是字节的表示，它是unicode代码点\u6211的utf-8编码，它是字符我。因此除了使用.decode('utf-8')的unicode字符串之外，没有必要转换某些内容。