Question

我观察到以下情况：

>>> print '£' + '1'
£1
>>> print '£' + u'1'
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128)
>>> print u'£' + u'1'
£1
>>> print u'£' + '1'
£1

为什么'£' + '1'有效但'£' + u'1'不起作用？

我查看了类型：

>>> type('£' + '1')
<type 'str'>
>>> type('£' + u'1')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128)
>>> type(u'£' + u'1')
<type 'unicode'>

这也让我感到困惑。如果'£' + '1'是str而不是unicode，为什么它会在我的终端上正确打印？它不应该打印像'\xc2\xa31'?

这样的东西

为了增加混音，我还观察了以下内容：

>>> u'£' + '1'
u'\xa31'
>>> type('1')
<type 'str'>
>>> type(u'£')
<type 'unicode'>
>>> print u'£' + '1'
£1

为什么u'£' + '1'无法正确打印£符号，而print u'£' + '1'呢？是因为repr用于前者，而str用于后者吗？

另外，在这种情况下，unicode和str的连接是如何工作的，但在'£' + u'1'情况下却没有？

Answer 1

您正在混合对象类型。

'£'是一个包含编码数据的字节串。这些字节碰巧代表你的终端或控制台中的井号，既不在这里，也不在那里，它可能与图像中的像素一样多。您将终端或控制台配置为生成并接受UTF-8数据，因此当以十六进制表示时，该字节串的实际内容是两个字节C2和A3。

另一方面，

u'1'是 Unicode字符串。它是明确的文本数据。如果要将其他数据连接到它，它也应该是Unicode。如果您尝试执行此操作，Python 2将使用默认的ASCII编解码器自动将str个字节解码为Unicode。

但是，'£'字节字符串不能解码为ASCII。可以解码为UTF-8;明确解码字节，因为我们知道正确的编解码器：

print '£'.decode('utf8') + u'1'

将字节写入终端或控制台时，您的终端或控制台会解释字节并理解它们。如果您向终端写入unicode对象，则sys.stdout对象负责编码，将文本转换为终端或控制台将理解的字节。

同样适用于输入; sys.stdin流生成字节，当您使用u'£'语法创建Unicode对象时，Python可以透明地解码。您在键盘上键入字符，它由终端或控制台转换为UTF-8字节，并写入Python进行解释。

当'\xc2\xa3'与print合作时，这是一个快乐的巧合。你可以使用unicode对象，将其编码为不同的编解码器，最后得到垃圾输出：

>>> print u'£1'.encode('latin-1')
?1

我的Mac终端将为£符号写入的数据转换为?，因为A3字节（英镑符号的Latin-1代码点）不会映射到任何内容解释为UTF-8。

Python从locale.getpreferredencoding() function确定终端或控制台编解码器，您可以通过sys.stdout.encoding和sys.stdin.encoding属性观察终端或控制台传达的内容：

>>> import sys
>>> sys.stdout.encoding
'UTF-8'

最后但同样重要的是，您不应将打印与交互模式下解释器回显的表示混淆。解释器使用repr()函数显示表达式的结果，repr()函数是一种调试工具，它尽可能使用 ASCII字符尝试生成Python文字表示法。对于Unicode值，这意味着使用转义序列反映任何不可打印的非ASCII字符。这使得该值适用于复制和粘贴，而不需要超过支持ASCII的介质。

str的{{1}}结果使用\n表示新行，例如，\xhh十六进制转义为没有专用转义序列的字节，超出可打印范围。此外，对于unicode个对象，Latin-1范围之外的代码点用\uhhhh和\Uhhhhhhhh转义序列表示，具体取决于是否是基本多语言平面的一部分：

>>> u'''\
... A multiline string to show newlines
... can contain £ latin characters
... or emoji !
... '''
u'A multiline string to show newlines\ncan contain \xa3 latin characters\nor emoji \U0001f4a9!\n'
>>> print _
A multiline string to show newlines
can contain £ latin characters
or emoji !

将Unicode与字符串连接：print'£'+'1'有效，但打印'£'+ u'1'会抛出UnicodeDecodeError

1 个答案: