为什么numpy.savez()输出不可重现的文件?

时间:2018-03-13 14:18:04

标签: python numpy zipfile

函数numpy.savez()允许将numpy对象存储在文件中。将相同的对象存储在两个文件中会产生两个不同的文件:

import numpy as np
some_array = np.arange(42)
np.savez('/tmp/file1', some_array=some_array)
np.savez('/tmp/file2', some_array=some_array)

这两个文件不同:

$ diff /tmp/file1.npz /tmp/file2.npz 
Binary files /tmp/file1.npz and /tmp/file2.npz differ

为什么文件不相同?是否包含一些随机行为,文件名或时间戳?这可以解决或修复吗? (这是一个错误吗?)

请注意,np.save()不是这种情况。 np.save()生成的文件对于相同的输入是相同的。所以我猜这与数据的压缩有关。

AFAICS只有两位不同:

$ xxd /tmp/file1.npz > /tmp/file1.hex
$ xxd /tmp/file2.npz > /tmp/file2.hex
$ diff -u0 /tmp/file1.hex /tmp/file2.hex    
--- /tmp/file1.hex      2018-03-13 13:39:12.235897095 +0100
+++ /tmp/file2.hex      2018-03-13 13:39:08.743927081 +0100
@@ -1 +1 @@
-0000000: 504b 0304 1400 0000 0000 ce6c 6d4c 9c9d  PK.........lmL..
+0000000: 504b 0304 1400 0000 0000 cf6c 6d4c 9c9d  PK.........lmL..
@@ -30 +30 @@
-00001d0: 1403 1400 0000 0000 ce6c 6d4c 9c9d 6ad9  .........lmL..j.
+00001d0: 1403 1400 0000 0000 cf6c 6d4c 9c9d 6ad9  .........lmL..j.

我在implementation of the function中找不到任何好的提示,但我还没有检查过压缩代码(同样Python 3.6可能会有所不同)。

注意:使用Python 2.7和numpy 1.9.2进行测试。

1 个答案:

答案 0 :(得分:9)

关于此here

存在github问题
  

savez()不是确定性的#9439

这似乎归结为 Zip文件将时间戳附加到文件(正如您所猜测的)与临时文件的使用相结合。

也讨论了变通方法,但似乎这个问题仍然是 open (虽然Python> = 3.6.0现在可能是unaffected(这似乎再一次被你观察到了))