我有一堆二进制数据来自python,来自某个C接口的char *(不在我的控制之下)所以我有一串任意二进制数据(通常是一个字节数组)。我想将它转换为字节数组,以简化其与其他python函数的使用,但我似乎无法弄清楚如何。
不起作用的示例:
data = rawdatastr.encode()
这假定为“utf-8”并破坏数据== BAD
data = rawdatastr.encode('ascii','ignore')
剥离字符超过127 == BAD
data = rawdatastr.encode('latin1')
不确定 - 这是目前为止最接近但我无法证明它适用于所有字节。
data = array.array('B', [x for x in map(ord,data)]).tobytes()
这很有效,但做一些简单的工作似乎很多。是否有更简单的东西?
我在想我需要编写自己的身份编码,只传递字节(I 认为 latin1根据一些阅读做到这一点,但到目前为止还没有证据)。
答案 0 :(得分:7)
虽然我怀疑其他人正在为您解码数据(C中的char*
通常最好表示为bytes
,特别是如果它是二进制数据):
latin1
编解码器可以每个字节往返。您可以使用以下简短程序对此进行验证:
>>> s = ''.join(chr(i) for i in range(0xff))
>>> s
'\x00\x01\x02\x03\x04\x05\x06\x07\x08\t\n\x0b\x0c\r\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a\x1b\x1c\x1d\x1e\x1f !"#$%&\'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~\x7f\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f\xa0¡¢£¤¥¦§¨©ª«¬\xad®¯°±²³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóôõö÷øùúûüýþ'
>>> s2 = s.encode('latin1').decode('latin1')
>>> s2 == s
True
>>> sb = bytes(range(0xff))
>>> sb
b'\x00\x01\x02\x03\x04\x05\x06\x07\x08\t\n\x0b\x0c\r\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a\x1b\x1c\x1d\x1e\x1f !"#$%&\'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~\x7f\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f\xa0\xa1\xa2\xa3\xa4\xa5\xa6\xa7\xa8\xa9\xaa\xab\xac\xad\xae\xaf\xb0\xb1\xb2\xb3\xb4\xb5\xb6\xb7\xb8\xb9\xba\xbb\xbc\xbd\xbe\xbf\xc0\xc1\xc2\xc3\xc4\xc5\xc6\xc7\xc8\xc9\xca\xcb\xcc\xcd\xce\xcf\xd0\xd1\xd2\xd3\xd4\xd5\xd6\xd7\xd8\xd9\xda\xdb\xdc\xdd\xde\xdf\xe0\xe1\xe2\xe3\xe4\xe5\xe6\xe7\xe8\xe9\xea\xeb\xec\xed\xee\xef\xf0\xf1\xf2\xf3\xf4\xf5\xf6\xf7\xf8\xf9\xfa\xfb\xfc\xfd\xfe'
>>> sb == s.encode('latin1')
True
答案 1 :(得分:6)
刚才我遇到了同样的问题。这就是我想出的:
import struct
def rawbytes(s):
"""Convert a string to raw bytes without encoding"""
outlist = []
for cp in s:
num = ord(cp)
if num < 255:
outlist.append(struct.pack('B', num))
elif num < 65535:
outlist.append(struct.pack('>H', num))
else:
b = (num & 0xFF0000) >> 16
H = num & 0xFFFF
outlist.append(struct.pack('>bH', b, H))
return b''.join(outlist)
一些例子:
In [34]: rawbytes('this is a test')
Out[34]: b'this is a test'
In [35]: rawbytes('\udc80\udcdf\udcff\udcff\udcff\x7f')
Out[35]: b'\xdc\x80\xdc\xdf\xdc\xff\xdc\xff\xdc\xff\x7f'
答案 2 :(得分:0)
您可以简单地encode('iso-8859-15')
>>> message = 'test 112 hello: what?!'
>>> message = message.encode('iso-8859-15')
>>> message
b'test 112 hello: what?!'
答案 3 :(得分:0)
使用base64:
>>> import base64
>>> encoded = base64.b64encode(b'data to be encoded')
>>> encoded
b'ZGF0YSB0byBiZSBlbmNvZGVk'
>>> data = base64.b64decode(encoded)
>>> data
b'data to be encoded'
编码变量仍然是字节类型,但是现在只有可打印的ASCII字符,因此您可以使用“ uts-8”对其进行编码。
>>>str_data = encoded.decode('utf-8')
>>>str_data
'ZGF0YSB0byBiZSBlbmNvZGVk'
>>>encoded_str = str_data.encode('utf-8')
>>>encoded_str
b'ZGF0YSB0byBiZSBlbmNvZGVk'
答案 4 :(得分:0)
我遇到了一个Python2脚本的问题,该脚本会通过xmlrpc与Python3脚本对话。问题是我想在Python3端以'wb'模式打开文件。通过Python3发送时,传入的字符串为bytes
类型,而通过Python2发送时,则为str
类型。我发现使用.encode
只能依靠传入数据来可靠地工作。
以下是对我有用的解决方案:
incoming_data = bytes([ord(char) for char in incoming_data])