Question

我期待以下代码

import gzip
import numpy as np

def read_ubyte(self, fname):
    with gzip.open(fname, 'rb') as flbl:
        magic, num = struct.unpack(">II", flbl.read(8))
        lbl = np.fromfile(flbl, dtype=np.int8)
    return magic, num, lbl

if __name__ == "__main__":
    print(read_ubyte("train-labels-idx1-ubyte.gz"))

与先执行gunzip train-labels-idx1-ubyte.gz然后执行

完全相同

import numpy as np

def read_ubyte(self, fname):
    with open(fname, 'rb') as flbl:
        magic, num = struct.unpack(">II", flbl.read(8))
        lbl = np.fromfile(flbl, dtype=np.int8)
    return magic, num, lbl

if __name__ == "__main__":
    print(read_ubyte("train-labels-idx1-ubyte"))

但它没有，第一个代码给出了输出：

(2049, 60000, array([  0,   3, 116, ..., -22,   0,   0], dtype=int8))

和第二个

(2049, 60000, array([5, 0, 4, ..., 5, 6, 8], dtype=int8))

为什么吗

注1：第二个是正确的输出（没有使用gzip模块）

注2：数字2049和60000是正确的

注意3：如果要重现，可以在http://yann.lecun.com/exdb/mnist/下载文件

Answer 1

NumPy和GZip对文件对象语义不一致。这是known issue，NumPy的某些部分（如np.load()）适用，但fromfile()不适用。

要解决它（仅在gzip情况下需要，但在两者中都有效）：

    lbl = np.fromstring(flbl.read(), dtype=np.int8)

Python gzip模块在ubyte文件上没有按预期工作

1 个答案: