我正在努力更好地理解numpy的memmap如何处理非常大的文件的视图。下面的脚本打开一个内存映射的2048 ^ 3数组,并复制一个下采样的128 ^ 3视图
import numpy as np
from time import time
FILE = '/Volumes/BlackBox/test.dat'
array = np.memmap(FILE, mode='r', shape=(2048,2048,2048), dtype=np.float64)
t = time()
for i in range(5):
view = np.array(array[::16, ::16, ::16])
t = ((time() - t) / 5) * 1000
print "Time (ms): %i" % t
通常,这会打印Time (ms): 80
左右。但是,如果我将视图分配更改为
view = np.array(array[1::16, 2::16, 3::16])
并运行三次,我得到以下内容:
Time (ms): 9988
Time (ms): 79
Time (ms): 78
有人理解为什么第一次调用会慢得多吗?
答案 0 :(得分:3)
操作系统仍然有部分(或全部)可用缓存在物理RAM中的映射文件。初始读取必须访问磁盘,这比访问RAM慢 lot 。做足够的其他磁盘IO,你会发现你会回到原来的时间,操作系统必须重新读取它没有再从磁盘缓存的位...