我对使用numba
相对较新,我想用它来尽可能高效地进行数组计算。有问题的函数是numba文档中几个概念的组合。
我在Scipy库中使用单一函数
scipy.special.eval_laguerre(n, x, out=None) = <ufunc 'eval_laguerre'>
,其评估点n处的拉盖尔多项式L_n(x)。
问题1: Numba文档明确说明了如何使用装饰器@vectorize
来优化用户编写的ufunc。 http://numba.pydata.org/numba-doc/0.12/ufuncs.html#generalized-ufuncs
使用python库提供的ufunc是否有标准的程序?
问题2:我想为矩阵的每个条目评估L_n(x),以获取数组中n个值的数组。然后我必须使用表达式对这些值求和:
result = np.sum( [eval_laguerre(n, matrix) for n in array], axis=0)
我使用了import numpy as np
。
如果我要使用广播,我会评估:
result = np.sum( eval_laguerre( array[:, None, None], matrix ), axis=0)
其中axis=0
表示要求和的维数。
我想使用'@jit'编译本节,但我不确定'numpy.sum()
的过程是什么。目前,上面带有@jit
表达式的表达式给出了语法错误。
result = np.sum( eval_laguerre( array[:, None, None], matrix ), axis=0)
^
SyntaxError: invalid syntax
使用@jit
和np.sum()
的正确方法是什么?
编辑:回应@hpaulj:
我的想法是numba
可以优化for循环,即
for n in array:
eval_laguerre(n, matrix)
这有可能吗?如果不是numba
,那么是什么? Pythran
?
答案 0 :(得分:1)
让我们更具体一点:
示例数组,我将用于n
和x
(您可以选择更实际的值):
In [782]: A=np.arange(12.).reshape(3,4)
版本,充分利用ufunc
广播支持
In [790]: special.eval_laguerre(A[:,None,:],A[None,:,:]).shape
Out[790]: (3, 3, 4)
或总结:
In [784]: np.sum(special.eval_laguerre(A[:,None,:],A[None,:,:]),0)
Out[784]:
array([[ 3.00000000e+00, -1.56922399e-01, -4.86843034e-01,
7.27719156e-02],
[ 1.37460317e+00, -4.47492284e+00, 5.77714286e+00,
-9.71780654e-01],
[ -1.76222222e+01, 7.00178571e+00, 5.55396825e+01,
-1.32810866e+02]])
等同于sum
中的列表内容:
In [785]: np.sum([special.eval_laguerre(n,A) for n in A],0)
Out[785]:
array([[ 3.00000000e+00, -1.56922399e-01, -4.86843034e-01,
7.27719156e-02],
[ 1.37460317e+00, -4.47492284e+00, 5.77714286e+00,
-9.71780654e-01],
[ -1.76222222e+01, 7.00178571e+00, 5.55396825e+01,
-1.32810866e+02]])
或显式循环:
In [786]: x=np.zeros_like(A)
In [787]: for n in A:
x += special.eval_laguerre(n, A)
最后一个版本有可能使用numba
进行编译。
在简单的时间测试中,ufunc广播速度更快:
In [791]: timeit np.sum([special.eval_laguerre(n,A) for n in A],axis=0)
10000 loops, best of 3: 84.8 µs per loop
In [792]: timeit np.sum(special.eval_laguerre(A[:,None,:],A[None,:,:]),0)
10000 loops, best of 3: 43.9 µs per loop
我的猜测是numba版本会改进理解版本和显式循环,但可能不会比广播版本更快。