我正在尝试在Cython中进行计算,这些计算严重依赖于numpy.log
等一些numpy / scipy数学函数。我注意到如果我在Cython的循环中重复调用numpy / scipy函数,则会产生巨大的开销,例如:
import numpy as np
cimport numpy as np
np.import_array()
cimport cython
def myloop(int num_elts):
cdef double value = 0
for n in xrange(num_elts):
# call numpy function
value = np.log(2)
这非常昂贵,大概是因为np.log
通过Python而不是直接调用numpy C函数。如果我用以下代码替换该行:
from libc.math cimport log
...
# calling libc function 'log'
value = log(2)
然后它会快得多。但是,当我尝试将numpy数组传递给libc.math.log时:
cdef np.ndarray[long, ndim=1] foo = np.array([1, 2, 3])
log(foo)
它给出了这个错误:
TypeError: only length-1 arrays can be converted to Python scalars
我的问题是:
foo
数组。)具体示例:假设您想在Cython中scipy.stats.*
循环内的标量值上调用许多scipy或numpy的有用统计函数(例如for
)?在Cython中重新实现所有这些功能是很疯狂的,因此必须调用它们的C版本。例如,所有与pdf / cdf相关的函数和各种统计分布的抽样(例如参见http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.rv_continuous.pdf.html#scipy.stats.rv_continuous.pdf和http://www.johndcook.com/distributions_scipy.html)如果在循环中用Python开销调用这些函数,它将会非常慢
感谢。
答案 0 :(得分:2)
您不能应用C函数,例如登录numpy数组,而numpy没有可以从cython调用的C函数库。
Numpy函数已经过优化,可以在numpy数组上调用。除非你有一个非常独特的用例,否则你不会看到将numpy函数重新实现为C函数会带来很多好处。 (numpy中的某些函数可能没有很好地实现,但考虑将输入作为补丁提交。)但是你确实提出了一个好点。
# A
from libc.math cimport log
for i in range(N):
r[i] = log(foo[i])
# B
r = np.log(foo)
# C
for i in range(n):
r[i] = np.log(foo[i])
一般来说,A和B应该有相似的运行时间,但应避免使用C并且速度要慢得多。
更新
这是scipy.stats.norm.pdf的代码,因为你可以看到它是用python编写的,带有numpy和scipy调用。这段代码没有C版本,你必须把它称为“通过python”。如果这是阻碍你的东西,你需要在C / Cython中重新植入它,但首先我会花一些时间仔细分析代码,看看是否有任何较低的悬挂果实。 / p>
def pdf(self,x,*args,**kwds):
loc,scale=map(kwds.get,['loc','scale'])
args, loc, scale = self._fix_loc_scale(args, loc, scale)
x,loc,scale = map(asarray,(x,loc,scale))
args = tuple(map(asarray,args))
x = asarray((x-loc)*1.0/scale)
cond0 = self._argcheck(*args) & (scale > 0)
cond1 = (scale > 0) & (x >= self.a) & (x <= self.b)
cond = cond0 & cond1
output = zeros(shape(cond),'d')
putmask(output,(1-cond0)+np.isnan(x),self.badvalue)
if any(cond):
goodargs = argsreduce(cond, *((x,)+args+(scale,)))
scale, goodargs = goodargs[-1], goodargs[:-1]
place(output,cond,self._pdf(*goodargs) / scale)
if output.ndim == 0:
return output[()]
return output