聚合numpy函数

时间:2016-03-15 05:30:14

标签: python arrays performance numpy

我有一个非常简单的操作,我需要进行优化:

 np.sum(a**2, axis=1)**.5   # where a is a 2 dimensional ndarray

此操作由三个功能组成,需要通过“a”和“#”进行迭代。三次。在一个函数下聚合所有操作并沿轴1仅应用该函数会更有效。不幸的是,numpy的apply_along_axis函数不是一个选项,因为性能大约是x1000差。

有没有办法聚合几个numpy操作,所以它只需要在数组上循环一次?

2 个答案:

答案 0 :(得分:4)

使用浮点数组时,可以使用np.einsum -

np.sqrt(np.einsum('ij,ij->i',a,a))

运行时测试 -

In [34]: a = np.random.rand(1000,1000)

In [35]: np.allclose(np.sum(a**2, axis=1)**.5,np.sqrt(np.einsum('ij,ij->i',a,a)))
Out[35]: True

In [36]: %timeit np.sum(a**2, axis=1)**.5
100 loops, best of 3: 7.57 ms per loop

In [37]: %timeit np.sqrt(np.einsum('ij,ij->i',a,a))
1000 loops, best of 3: 1.52 ms per loop

答案 1 :(得分:3)

看看numexpr,它允许您比纯numpy更快地评估数值表达式:

In [19]: a = np.arange(1e6).reshape(1000,1000)

In [20]: import numexpr as ne

In [21]: %timeit np.sum(a**2,axis=1)**0.5
100 loops, best of 3: 6.08 ms per loop

In [22]: %timeit ne.evaluate("sum(a**2,axis=1)")**0.5
100 loops, best of 3: 4.27 ms per loop

**0.5不是表达式的一部分,因为sum是一个约简操作,需要在表达式的最后计算。您还可以针对sqrt / **0.5运行另一次评估。