Question

我需要读取存储在内存映射文件中的巨大numpy数组的部分内容，处理数据并重复数组的另一部分。整个numpy阵列占用大约50 GB，我的机器有8 GB RAM。

我最初使用numpy.memmap创建了内存映射文件，方法是读入大量较小的文件并处理数据，然后将处理后的数据写入memmap文件。在创建memmap文件的过程中，我没有内存问题（我定期使用memmap.flush（））。以下是我创建内存映射文件的方法：

mmapData = np.memmap(mmapFile,mode='w+', shape=(large_no1,large_no2))
for i1 in np.arange(numFiles):
   auxData = load_data_from(file[i1])
   mmapData[i1,:] = auxData
   mmapData.flush() % Do this every 10 iterations or so

然而，当我尝试访问memmap文件的小部分（<10 MB）时，它会在创建memmap对象时泛滥我的整个ram。机器急剧减速，我无能为力。以下是我尝试从内存映射文件中读取数据的方法：

mmapData = np.memmap(mmapFile, mode='r',shape=(large_no1,large_no2))
aux1 = mmapData[5,1:1e7]

我认为使用mmap或numpy.memmap应该允许我访问大量数组的部分而不尝试将整个内容加载到内存中。我错过了什么？

我是否使用错误的工具访问存储在磁盘中的大型numpy阵列（> 20 GB）的部分？

Answer 1

可能是你在看虚拟而不是物理内存消耗，而减速来自其他东西吗？

numpy数组的内存映射文件

1 个答案: