在http://nedbatchelder.com/text/unipain.html中解释说:
在Python 2中,有两种不同的字符串数据类型。一个普通的老人 string literal为您提供了一个存储字节的“str”对象。如果你 使用“u”前缀,你会得到一个“unicode”对象,它存储代码 分。
代码点与字节之间有什么区别? (我想的不是Python本身,而只是一般的概念)。基本上它只是一堆,对吧?我认为痛苦的旧字符串文字将每个8位视为一个字节并按此处理,我们将字节解释为整数,并允许我们将其映射到ASCII和扩展字符集。将整数解释为该字符集并将“代码点”解释为Unicode字符之间的区别是什么?它说Python的Unicode对象存储“代码点”。除了可能的解释(例如,每个Unicode字符的位以utf-8开始和停止的位置)之外,这不是普通的旧字节吗?
答案 0 :(得分:3)
代码点是一个数字,用作Unicode字符的标识符。代码点本身不能被存储,它必须从Unicode编码成例如字节。 UTF-16LE。虽然某个字节或字节序列可以表示给定编码中的特定代码点,但没有编码信息,没有任何东西可以将代码点连接到字节。