Cython并行性和模板

时间:2018-04-17 22:16:19

标签: python cython

在密集使用numba之后,我回到cython来并行化一些耗时的功能。以下是一个基本示例:

import numpy as np
cimport numpy as np

from cython import boundscheck, wraparound
from cython.parallel import parallel, prange

@boundscheck(False)
@wraparound(False)
def cytest1(double[:,::1] a, double[:,::1] b, int ix1, int ix2, int iz1, int iz2):

    cdef int ix
    cdef int iz

    for ix in range(ix1, ix2):
        for iz in range(iz1, iz2):
            b[ix, iz] = 0.5*(a[ix+1, iz] - a[ix-1, iz])
    return b


@boundscheck(False)
@wraparound(False)
def cytest2(double[:,::1] a, double[:,::1] b, int ix1, int ix2, int iz1, int iz2):

    cdef int ix
    cdef int iz

    with nogil, parallel():
        for ix in prange(ix1, ix2):
            for iz in range(iz1, iz2):
                b[ix, iz] = 0.5*(a[ix+1, iz] - a[ix-1, iz])

    return b

编译这两个函数时(使用openmp标志),并按如下方式调用它们:

nx, nz = 1024, 1024

a = np.random.rand(nx, nz)
b = np.zeros_like(a)

Nit = 1000
ti = time.time()
for i in range(Nit):
    cytest1(a, b, 5, nx-5, 0, nz)
print('cytest1 : {:.3f} s.'.format(time.time() - ti))

ti = time.time()
for i in range(Nit):
    cytest2(a, b, 5, nx-5, 0, nz)
print('cytest2 : {:.3f} s.'.format(time.time() - ti))

我获得了这些执行时间:

cytest1 : 1.757 s.
cytest2 : 1.861 s.

当执行并行功能时,我可以看到我的4个cpu-s正在运行,但执行时间几乎与使用串行功能获得的时间相同。我试图将prange移动到内循环,但最坏的结果。我也尝试了一些不同的schedule选项但没有成功。

我显然错过了什么,但是什么? prange是否无法使用试图访问n + X / n-X元素的代码来阻塞循环?

编辑:

我的设置:

model name      : Intel(R) Core(TM) i7-6600U CPU @ 2.60GHz
MemTotal        : 8052556 kB
Python          : 3.5.2
cython          : 0.28.2
Numpy           : 1.14.2 
Numba           : 0.37.0

setup.py:

from distutils.core import setup
from distutils.extension import Extension
from Cython.Distutils import build_ext


ext_modules = [
    Extension("stencil",
              ["stencil.pyx"],
              libraries=["m"],
              extra_compile_args=["-O3", "-ffast-math", "-march=native", "-fopenmp"],
              extra_link_args=['-fopenmp'],
              )
]

setup(
  name="stencil",
  cmdclass={"build_ext": build_ext},
  ext_modules=ext_modules
)

1 个答案:

答案 0 :(得分:3)

这个答案会有很多猜测,但正如我们将要看到的:很多都取决于硬件,因此如果没有相同的硬件,就不容易解释。

第一个问题是:什么是瓶颈?通过查看我认为的代码,这是一个内存限制的任务。

为了使其更加清晰,我们只在循环中执行以下操作:

 b[ix, iz] = (a[ix+1, iz])

所以没有计算,只有内存访问。

我使用Intel Xeon E5-2620 @ 2.1 Ghz和2个处理器和%timeit - 魔术报告:

>>> %timeit cytest1(a,b,5, nx-5, 0, nz)
100 loops, best of 3: 1.99 ms per loop

>>> %timeit cytest2(a,b,5, nx-5, 0, nz)
The slowest run took 234.48 times longer than the fastest. This could mean that an intermediate result is being cached.
1000 loops, best of 3: 324 µs per loop

正如我们所看到的,一些缓存正在进行中。我们有2个阵列,每个8Mb - 这意味着必须“触摸”16Mb的数据。我的机器上的每个处理器都有15Mb的缓存 - 因此对于单个线程,数据在被重用之前从缓存中逐出,但如果使用两个处理器,则有20Mb的快速缓存 - 因此足以保留所有数据。

这意味着我们看到的加速是由于大量的快速内存(缓存)可以被并行版本使用。

让我们增加数组的大小,因此即使对于并行版本,缓存也不够大:

....
>>> nx, nz = 10240, 10240 #100 times bigger
....

>>> %timeit cytest1(a,b,5, nx-5, 0, nz)
1 loop, best of 3: 238 ms per loop

>>> %timeit cytest2(a,b,5, nx-5, 0, nz)
10 loops, best of 3: 99.3 ms per loop

现在速度提高了约2倍,这很容易解释:两个处理器的内存带宽是一个处理器的两倍,并且两者都被并行版本使用。

我们为您的公式得到非常相似的结果

b[ix, iz] = 0.5*(a[ix+1, iz] - a[ix-1, iz])

这并不奇怪 - 没有足够的计算来使其受CPU限制。

sincos是CPU密集型操作,因此使用它们会使计算受CPU限制(参见附录中的整个代码):

...
b[ix, iz] = sin(a[ix+1, iz])
...
>>> %timeit cytest1(a,b,5, nx-5, 0, nz)
1 loop, best of 3: 1.6 s per loop

>>> %timeit cytest2(a,b,5, nx-5, 0, nz)
1 loop, best of 3: 217 ms per loop

这样可以加速8,这对我的机器来说非常合理。

显然,对于其他机器/架构,可以观察到不同的行为。但简而言之:

  1. 我不希望你的公式快速加速 - 任务是内存限制的,所以问题是,你是否可以实现更高的内存访问带宽。
  2. 对于更多CPU密集型计算,您应该能够看到至少一些加速,这取决于您的硬件。
  3. 列表(在Windows上,在linux上使用-fopenmp):

    %%cython --compile-args=/openmp --link-args=/openmp 
    from cython.parallel import parallel, prange
    from cython import boundscheck, wraparound
    from libc.math cimport sin
    
    @boundscheck(False)
    @wraparound(False)
    def cytest1(double[:,::1] a, double[:,::1] b, int ix1, int ix2, int iz1, int iz2):
    
        cdef int ix
        cdef int iz
    
        for ix in range(ix1, ix2):
            for iz in range(iz1, iz2):
                b[ix, iz] =sin(a[ix+1, iz])
        return b
    
    
    @boundscheck(False)
    @wraparound(False)
    def cytest2(double[:,::1] a, double[:,::1] b, int ix1, int ix2, int iz1, int iz2):
    
        cdef int ix
        cdef int iz
    
        with nogil, parallel():
            for ix in prange(ix1, ix2):
                for iz in range(iz1, iz2):
                    b[ix, iz] = sin(a[ix+1, iz])
    
        return b