计算1000个阵列的统计数据

时间:2013-08-28 10:51:34

标签: python numpy arrays

我正在编写一个python模块,需要计算1000多个数组(相同尺寸)的像素值的平均值和标准差。

我正在寻找最快的方法。

目前我正在遍历数组并使用numpy.dstack将1000个数组堆叠成一个相当大的3d数组......然后计算第3个(?)维度的平均值。每个阵列都有形状(5000,4000)。

这种方法需要相当长的时间!

是否有人能够就更有效的方法来解决这个问题?

3 个答案:

答案 0 :(得分:2)

也许您可以累积计算meanstd这样的事情(未经测试):

im_size = (5000,4000)

cum_sum = np.zeros(im_size)
cum_sum_of_squares = np.zeros(im_size)
n = 0

for filename in filenames:
    image = read_your_image(filename)
    cum_sum += image
    cum_sum_of_squares += image**2
    n += 1

mean_image = cum_sum / n
std_image = np.sqrt(cum_sum_of_squares / n - (mean_image)**2)

这可能受限于您从磁盘读取图像的速度。它不受内存限制,因为您一次只在内存中有一个图像。以这种方式计算std可能会遇到数值问题,因为您可能会减去两个大数字。如果这是一个问题,你必须循环文件两次,首先计算均值,然后在第二次传递中累积(image - mean_image)**2

答案 1 :(得分:1)

预分配并填写。这使我的运行时形式减少了大约1000秒到20秒

data_stack = numpy.empty((321, 720, 1000), dtype=numpy.float32)
for index in range(len(data)):
  data_stack[0:321,0:720,index] = data[index]

我做了类似的事情。 dstack不是解决这个问题的好方法。一位同事让我想起了动态阵列问题和摊销分析。 http://anh.cs.luc.edu/363/notes/06A_Amortizing.html

如果要扩展动态数组,则需要分配一个可以保存原始数据和新数据的新数组。然后,将旧数组复制到新数组中,将新数据复制到新数组中。这是一项昂贵的操作。

假设您有一个大小为10的数组,并且您希望一次添加一个项目。要添加第一个项目,您需要将数组扩展为大小11并复制11个项目(原始10 + 1个新项目)。要添加第二个项目,您需要将数组扩展为12并复制12个项目。如果您提前知道要添加2个项目,那么可以将数组的大小调整为12以开始,并且仅复制12个项目而不是总共23个。事实证明,每次耗尽时,数组的大小都会增加一倍空间是一种更有效的解决方案。

这在这里是如何适用的:dstack不会使ndarray的大小加倍,它意味着只根据需要分配尽可能多的内存。因此,每次调用dstack时,您都会将ndarray中的所有数据复制到新的ndarray中,并为新数据留出空间。请注意,每次调用时dstack的时间都会增加。

答案 2 :(得分:0)

如果您想大幅减少计算时间,可以选择多线程解决方案。 python有几个库,如this