dask.array.reshape很慢

时间:2016-06-19 23:20:46

标签: arrays dask

我有一个迭代构建的数组如下:

step1.shape = (200,200)
step2.shape = (200,200,200)
step3.shape = (200,200,200,200)

然后重塑为:

step4.shape = (200,200**3)

我这样做是因为dask.array.atop似乎不允许你从这样的形状出发:(200,200) - > (200200 ** 2)。我认为这是因为它与分块和懒惰的评估有关。

当我执行step4并尝试重塑它时,dask似乎想要在重新整形之前计算矩阵,这会导致大量的计算时间和内存使用。

有没有办法避免这种情况?

根据要求,这里有一些虚拟代码:

def prod_mat(matrix_a,matrix_b):
    #mat_a.shape = (300,...,300,200)
    #mat_b.shape = (300, 200)
    mat_a = matrix_a.reshape(-1,matrix_a.shape[-1])
    #mat_a = (300**n,200)
    mat_b = matrix_b.reshape(-1,matrix_b.shape[-1])
    #mat_b = (300,200)
    mat_temp = np.repeat(mat_a,matrix_b.shape[0],axis=0)*np.tile(mat_b.T,mat_a.shape[0]).T
    new_dim = int(math.log(mat_temp.shape[0])/math.log(matrix_a.shape[0]))
    new_shape = [matrix_a.shape[0] for n in range(new_dim)]
    new_shape.append(-1)
    result = mat_temp.reshape(tuple(new_shape))
    #result.shape = (300,...,300,300,200)
    return result

b = np.random.rand(300,200)
b = da.from_array(b,chunks=100)
c=da.atop(prod_mat,'ijk',b,'ik',b,'jk')
d=da.atop(prod_mat,'ijkl',c,'ijl',b,'kl')
e=da.atop(prod_mat,'ijklm',d,'ijkm',b,'lm')
f = e.sum(axis=-1)
f.reshape(300,300**3) ----> This is slow, as if it is using compute()

1 个答案:

答案 0 :(得分:0)

这个计算不是调用compute,而是制作一个非常大的图形。一般来说,重塑并行阵列非常激烈。很多你的小块最终会和很多其他的小块交谈,造成严重破坏。这个例子特别糟糕。

也许还有另一种方法可以最初以正确的形状生成输出?

查看开发日志,看来这个失败实际上是在开发过程中预料到的:https://github.com/dask/dask/pull/758