“surrogateescape”无法逃避某些角色

时间:2014-01-14 14:30:38

标签: python unicode encoding utf-8

关于在Python中读写文本文件,one of the main Python contributors mentions关于surrogateescape Unicode错误处理程序:

  

[surrogateescape]通过在Unicode代码点空间的一个小部分使用的数据中处理数据来处理解码错误。编码时,它会将那些隐藏的值转换回无法正确解码的确切原始字节序列。

但是,在打开文件然后尝试将输出写入另一个文件时:

input_file = open('someFile.txt', 'r', encoding="ascii", errors="surrogateescape")
output_file = open('anotherFile.txt', 'w')

for line in input_file:
    output_file.write(line)

结果:

  File "./break-50000.py", line 37, in main
    output_file.write(line)
UnicodeEncodeError: 'utf-8' codec can't encode character '\udcc3' in position 3: surrogates not allowed

请注意,输入文件不是 ASCII。但是,它会在包含非ASCII字符的数百行之前横切它,然后才会在一个特定行上抛出异常。输出文件必须是ASCII,丢失一些字符就好了。

这是在解码为UTF-8时抛出错误的行:

  ''Zoë\'s Coffee House'

这是十六进制编码:

$ cat z.txt | hd
00000000  27 5a 6f c3 ab 5c 27 73  20 43 6f 66 66 65 65 20  |'Zo..\'s Coffee |
00000010  48 6f 75 73 65 27 0a                              |House'.|
00000017

为什么surrogateescape Unicode错误处理程序可以返回 ASCII的字符?这是在Kubuntu Linux 12.10上使用Python 3.2.3。

3 个答案:

答案 0 :(得分:8)

  

为什么surrogateescape Unicode Error Handler会返回非ASCII字符?

因为这是明确的做法。这样你可以用另一种方式使用相同的错误处理程序,它将知道该怎么做。

3>> b"'Zo\xc3\xab\\'s'".decode('ascii', errors='surrogateescape')
"'Zo\udcc3\udcab\\'s'"
3>> "'Zo\udcc3\udcab\\'s'".encode('ascii', errors='surrogateescape')
b"'Zo\xc3\xab\\'s'"

答案 1 :(得分:4)

单独的代理不应该用UTF-8编码 - 这正是它用于无效输入的内部表示的原因。

在现实生活中,获取对于“假定”所在的编码无效的数据是很常见的。例如,这个问题的灵感来自于看似拉丁文1中的文本,当ASCII或预计UTF-8。我把“假设”放在引号中,因为“编码信息”很常见,只是猜测,可能与实际文件无关。

默认情况下,xml处理(以及大多数unicode处理)都是严格的 - 整个过程都会放弃,即使它可以正常处理数百个其他行。

解码错误=替换会将该行转变为“Zo?咖啡馆”,这是一项改进。 (好吧,除非你试图用无效的其他东西替换无效字符 - 并且官方unicode替换字符在ASCII中无效,这就是'?'通常用于编码的原因。)

当程序员决定“你知道什么时使用surrogateescape吗?我不在乎数据是否是垃圾。也许有错误的编解码器...所以我只会传递未知数沿着原样的字节。“ Python必须在内部存储(但避免解释)这些字节,直到它们被传递。

使用未配对的代理允许Python存储无效字节而无需额外转义。准确地因为不成对的代理无效,它们永远不会出现在有效的输入中。 (如果它们以任何方式出现,它们将被解释为一对无法识别的字节,这两个字节都会被保留用于输出。)

原始海报的问题在于他试图直接打印出内部表示,而不是首先反转映射,而内部表示具有(故意)无效的字节...所以默认(严格)错误处理程序被拒绝。

答案 2 :(得分:-1)

为什么应该在utf-8中编码低代理DCC3?这是不允许和无用的,因为代理不是一个角色。找到属于低代理的高代理,解码其代码点,然后为代码点创建正确的utf-8序列。