为什么Python会自动将字符串中的十六进制编码为UTF-8?

时间:2017-08-05 06:17:21

标签: python python-3.x unicode

我一直在使用python进行ascii到二进制的翻译,并且在解析结果时遇到了问题。最终我想看看Python命令产生了什么。

输出中似乎插入了一个0xc2 :(例如):

$ python -c 'print("\x80")' | xxd
00000000: c280 0a                                  ...

实际上,无论使用何种字节,都会发生这种情况:

$ python -c 'print("Test\x80Test2\x81")' | xxd
00000000: 5465 7374 c280 5465 7374 32c2 810a       Test..Test2...

在预感中,我在UTF-8时戳了戳,果然,U+0080被编码为0xc2 0x80。显然,Python可以自由地假设\x80实际上意味着U+0080的编码。有没有办法更改此默认行为或以其他方式明确规定我的意图是包括单个字节0x80而不是UTF编码?

Python 3.6.2

2 个答案:

答案 0 :(得分:4)

Python 3正确地将字符插入到str中,这是一个字符串,而不是字节序列。

UTF8是默认编码。如果需要插入一个字节,则需要一个不同的编码,其中该字符表示为一个字节。

$ PYTHONIOENCODING=iso-8859-1 python3 -c 'print("\x80")' | xxd
00000000: 800a
  

PYTHONIOENCODING

     

如果在运行解释器之前设置了它,它将覆盖语法中用于stdin / stdout / stderr的编码   encodingname:的ErrorHandler。 encodingname和:errorhandler   部分是可选的,与str.encode()中的含义相同。

答案 1 :(得分:3)

如果要在Python 3中输出原始字节,则不应使用print函数,因为它用于以默认编码输出文本。相反,您可以使用sys.stdout.buffer.write

ASCII是7位编码,因此如果您所谓的ASCII包含b'\x80'之类的字符,则它不是合法的ASCII。也许你的数据实际上是用iso-8859-1编码的,也就是latin-1,或者它可能是密切相关的Windows变体cp1252。要正确执行此类操作,您需要确定用于创建数据的实际编码。

如果要输出"Test\x80Test2\x81"并使十六进制转储看起来像这样:

00000000  54 65 73 74 80 54 65 73  74 32 81                 |Test.Test2.|

你可以做到

import sys
s = "Test\x80Test2\x81"
sys.stdout.buffer.write(s.encode('latin1'))

这是有效的,因为Latin-1是Unicode的子集。这是一个快速演示:

import binascii

a = ''.join([chr(i) for i in range(256)])
b = a.encode('latin1')
print(binascii.hexlify(b))

<强>输出

b'000102030405060708090a0b0c0d0e0f101112131415161718191a1b1c1d1e1f202122232425262728292a2b2c2d2e2f303132333435363738393a3b3c3d3e3f404142434445464748494a4b4c4d4e4f505152535455565758595a5b5c5d5e5f606162636465666768696a6b6c6d6e6f707172737475767778797a7b7c7d7e7f808182838485868788898a8b8c8d8e8f909192939495969798999a9b9c9d9e9fa0a1a2a3a4a5a6a7a8a9aaabacadaeafb0b1b2b3b4b5b6b7b8b9babbbcbdbebfc0c1c2c3c4c5c6c7c8c9cacbcccdcecfd0d1d2d3d4d5d6d7d8d9dadbdcdddedfe0e1e2e3e4e5e6e7e8e9eaebecedeeeff0f1f2f3f4f5f6f7f8f9fafbfcfdfeff'

但是,如果您实际上正在使用二进制数据,那么您不应该首先将其存储在文本字符串中,您应该使用bytes,或者可能bytearray。从前一个示例生成b字节字符串的合理方法是执行

b = bytes(range(256))

如果您有一个bytes对象,例如b"Test\x80Test2\x81",您可以使用

将这些字节转储到stdout
sys.stdout.buffer.write(b"Test\x80Test2\x81")