TLDR:在cython中,为什么(或何时?)迭代一个numpy数组比迭代python列表更快?
一般而言: 我之前使用过Cython,并且能够在天真的python impl'上获得巨大的速度, 然而,弄清楚究竟需要做什么似乎并非无足轻重。
考虑以下3个sum()函数的实现。 它们驻留在一个名为'cy'的cython文件中(显然,有np.sum(),但除了我的观点之外......)
朴素蟒蛇:
def sum_naive(A):
s = 0
for a in A:
s += a
return s
Cython,其函数需要python列表:
def sum_list(A):
cdef unsigned long s = 0
for a in A:
s += a
return s
Cython,其函数需要一个numpy数组。
def sum_np(np.ndarray[np.int64_t, ndim=1] A):
cdef unsigned long s = 0
for a in A:
s += a
return s
我希望在运行时间方面, sum_np< sum_list< sum_naive ,但是,以下脚本演示相反(为了完整性,我添加了np.sum())
N = 1000000
v_np = np.array(range(N))
v_list = range(N)
%timeit cy.sum_naive(v_list)
%timeit cy.sum_naive(v_np)
%timeit cy.sum_list(v_list)
%timeit cy.sum_np(v_np)
%timeit v_np.sum()
结果:
In [18]: %timeit cyMatching.sum_naive(v_list)
100 loops, best of 3: 18.7 ms per loop
In [19]: %timeit cyMatching.sum_naive(v_np)
1 loops, best of 3: 389 ms per loop
In [20]: %timeit cyMatching.sum_list(v_list)
10 loops, best of 3: 82.9 ms per loop
In [21]: %timeit cyMatching.sum_np(v_np)
1 loops, best of 3: 1.14 s per loop
In [22]: %timeit v_np.sum()
1000 loops, best of 3: 659 us per loop
发生了什么事? 为什么cython + numpy会变慢?
P.S。
我用的是
#cython:boundscheck = False
#cython:wraparound = False
答案 0 :(得分:9)
有一种更好的方法可以在cython中实现这一点,至少在我的机器上击败np.sum
,因为它避免了类型检查以及在处理任意数组时numpy通常必须做的其他事情:
#cython.wraparound=False
#cython.boundscheck=False
cimport numpy as np
def sum_np(np.ndarray[np.int64_t, ndim=1] A):
cdef unsigned long s = 0
for a in A:
s += a
return s
def sum_np2(np.int64_t[::1] A):
cdef:
unsigned long s = 0
size_t k
for k in range(A.shape[0]):
s += A[k]
return s
然后是时间:
N = 1000000
v_np = np.array(range(N))
v_list = range(N)
%timeit sum(v_list)
%timeit sum_naive(v_list)
%timeit np.sum(v_np)
%timeit sum_np(v_np)
%timeit sum_np2(v_np)
10 loops, best of 3: 19.5 ms per loop
10 loops, best of 3: 64.9 ms per loop
1000 loops, best of 3: 1.62 ms per loop
1 loops, best of 3: 1.7 s per loop
1000 loops, best of 3: 1.42 ms per loop
您不希望通过Python样式迭代numpy数组,而是使用索引访问元素,因为它可以转换为纯C,而不是依赖于Python API。
答案 1 :(得分:3)
a
是无类型的,因此会有很多从Python到C类型的转换。这些可能很慢。
JoshAdel正确地指出,不是迭代,而是迭代一个范围。 Cython会将索引转换为C,这很快。
使用cython -a myfile.pyx
会为您突出显示这些内容;你希望你的所有循环逻辑都是白色的,以获得最大速度。
PS:请注意,np.ndarray[np.int64_t, ndim=1]
已过时且已被弃用,以支持更快且更通用的long[:]
。