Question

我有一个由C结构构成的二进制文件，我想在Python中进行解析。我知道二进制文件的确切格式和布局，但我对如何使用Python Struct解包来读取这些数据感到困惑。

我是否必须遍历整个二进制文件，根据结构的成员一次解包一定数量的字节？

C文件格式：

typedef struct {
  int data1;
  int data2;
  int data4;
} datanums;

typedef struct {
  datanums numbers;
  char *name;
 } personal_data;

让我们说二进制文件一个接一个地重复了personal_data结构。

Answer 1

假设布局是一个静态二进制结构，可以通过一个简单的struct模式来描述，而文件就是那个结构一遍又一遍地重复，那么是的，“遍历整个二进制文件解包一定数量“一次一个字节”正是你要做的。

例如：

record = struct.Struct('>HB10cL')

with open('myfile.bin', 'rb') as f:
    while True:
        buf = f.read(record.size)
        if not buf:
            break
        yield record.unpack(buf)

如果您担心一次只能读取17个字节的效率，并且您想通过一次缓冲8K来解决这个问题......那么，首先要确保这是一个值得优化的实际问题;然后，如果是，则循环unpack_from而不是unpack。这样的事情（未经测试，我的头顶代码）：

buf, offset = b'', 0
with open('myfile.bin', 'rb') as f:
    if len(buf) < record.size:
        buf, offset = buf[offset:] + f.read(8192), 0
        if not buf:
            break
    yield record.unpack_from(buf, offset)
    offset += record.size

或者，甚至更简单，只要文件对于你的vmsize来说不是太大，只需要mmap整个unpack_from本身mmap：

with open('myfile.bin', 'rb') as f:
    with mmap.mmap(f, 0, access=mmap.ACCESS_READ) as m:
        for offset in range(0, m.size(), record.size):
            yield record.unpack_from(m, offset)

Answer 2

您可以一次打开几个。让我们从这个例子开始：

In [44]: a = struct.pack("iiii", 1, 2, 3, 4)

In [45]: a
Out[45]: '\x01\x00\x00\x00\x02\x00\x00\x00\x03\x00\x00\x00\x04\x00\x00\x00'

如果你正在使用字符串，你可以只使用它的一个子集，或者使用unpack_from：

In [49]: struct.unpack("ii",a[0:8])
Out[49]: (1, 2)
In [55]: struct.unpack_from("ii",a,0)
Out[55]: (1, 2)
In [56]: struct.unpack_from("ii",a,4)
Out[56]: (2, 3)

如果您正在使用缓冲区，则需要使用unpack_from。

有人可以解释Python结构解包吗？

2 个答案: