我一直在使用python进行ascii到二进制的翻译,并且在解析结果时遇到了问题。最终我想看看Python命令产生了什么。
输出中似乎插入了一个0xc2
:(例如):
$ python -c 'print("\x80")' | xxd
00000000: c280 0a ...
实际上,无论使用何种字节,都会发生这种情况:
$ python -c 'print("Test\x80Test2\x81")' | xxd
00000000: 5465 7374 c280 5465 7374 32c2 810a Test..Test2...
在预感中,我在UTF-8时戳了戳,果然,U+0080
被编码为0xc2 0x80
。显然,Python可以自由地假设\x80
我实际上意味着U+0080
的编码。有没有办法更改此默认行为或以其他方式明确规定我的意图是包括单个字节0x80
而不是UTF编码?
Python 3.6.2
答案 0 :(得分:4)
Python 3正确地将字符插入到str
中,这是一个字符串,而不是字节序列。
UTF8是默认编码。如果需要插入一个字节,则需要一个不同的编码,其中该字符表示为一个字节。
$ PYTHONIOENCODING=iso-8859-1 python3 -c 'print("\x80")' | xxd
00000000: 800a
PYTHONIOENCODING
如果在运行解释器之前设置了它,它将覆盖语法中用于stdin / stdout / stderr的编码 encodingname:的ErrorHandler。 encodingname和:errorhandler 部分是可选的,与str.encode()中的含义相同。
答案 1 :(得分:3)
如果要在Python 3中输出原始字节,则不应使用print
函数,因为它用于以默认编码输出文本。相反,您可以使用sys.stdout.buffer.write
。
ASCII是7位编码,因此如果您所谓的ASCII包含b'\x80'
之类的字符,则它不是合法的ASCII。也许你的数据实际上是用iso-8859-1编码的,也就是latin-1,或者它可能是密切相关的Windows变体cp1252。要正确执行此类操作,您需要确定用于创建数据的实际编码。
如果要输出"Test\x80Test2\x81"
并使十六进制转储看起来像这样:
00000000 54 65 73 74 80 54 65 73 74 32 81 |Test.Test2.|
你可以做到
import sys
s = "Test\x80Test2\x81"
sys.stdout.buffer.write(s.encode('latin1'))
这是有效的,因为Latin-1是Unicode的子集。这是一个快速演示:
import binascii
a = ''.join([chr(i) for i in range(256)])
b = a.encode('latin1')
print(binascii.hexlify(b))
<强>输出强>
b'000102030405060708090a0b0c0d0e0f101112131415161718191a1b1c1d1e1f202122232425262728292a2b2c2d2e2f303132333435363738393a3b3c3d3e3f404142434445464748494a4b4c4d4e4f505152535455565758595a5b5c5d5e5f606162636465666768696a6b6c6d6e6f707172737475767778797a7b7c7d7e7f808182838485868788898a8b8c8d8e8f909192939495969798999a9b9c9d9e9fa0a1a2a3a4a5a6a7a8a9aaabacadaeafb0b1b2b3b4b5b6b7b8b9babbbcbdbebfc0c1c2c3c4c5c6c7c8c9cacbcccdcecfd0d1d2d3d4d5d6d7d8d9dadbdcdddedfe0e1e2e3e4e5e6e7e8e9eaebecedeeeff0f1f2f3f4f5f6f7f8f9fafbfcfdfeff'
但是,如果您实际上正在使用二进制数据,那么您不应该首先将其存储在文本字符串中,您应该使用bytes
,或者可能bytearray
。从前一个示例生成b
字节字符串的合理方法是执行
b = bytes(range(256))
如果您有一个bytes
对象,例如b"Test\x80Test2\x81"
,您可以使用
sys.stdout.buffer.write(b"Test\x80Test2\x81")