Question

我有一个“TIFFFiles”列表，其中每个“TIFFFiles”包含一个“TIFFArray”，其中包含60个tiff图像，每个图像的大小为2776x2080像素。图像被读取为numpy.memmap对象。我想访问所有图像的强度（imgs的形状：（60,2776,2080））。我使用以下代码：

for i in xrange(18):

    #get instance of type TIFFArray from tiff_list
    tiffs = get_tiff_arrays(smp_ppx, type_subfile,tiff_list[i])

    #accessing all intensities from tiffs
    imgs = tiffs[:,:,:]

即使在每次迭代步骤中覆盖“tiffs”和“imgs”，我的内存也会增加2.6GByte。如何避免在每个迭代步骤中复制数据？有没有办法可以重用2.6GByte的内存？

Answer 1

我知道这可能不是一个答案，但无论如何它可能会有所帮助，而且评论太长了。

有些时候我在使用numpy读取大型（> 1Gb）ascii文件时出现内存问题：基本上用numpy.loadtxt读取文件，代码使用的是整个内存（8Gb）加上一些交换。

根据我的理解，如果您事先知道要填充的数组的大小，您可以分配它并将其传递给，例如loadtxt。这应该可以防止numpy分配临时对象，并且可能在内存方面更好。

mmap或类似方法可以帮助提高内存使用率，但我从未使用它们。

修改

内存使用和释放的问题让我想知道我什么时候试图解决我的大文件问题。基本上我有

def read_f(fname): arr = np.loadtxt(fname) #this uses a lot of memory #do operations return something for f in ["verylargefile", "smallerfile", "evensmallerfile"]: result = read_f(f)

从我做过的内存分析中，返回loadtxt时或返回read_f并使用较小的文件再次调用时没有释放内存。

Python：读取TIFFArray时内存使用量增加

1 个答案: