解释与Python中的动态调度惩罚

时间:2017-10-09 20:14:48

标签: python dynamic-programming cython performance-testing dispatch

我观看了Brandon Rhodes关于Cython的演讲 - “EXE的日子在我们身上”。

布兰登在09:30提到,对于一段特定的短代码,跳过解释给出了40%的加速,而跳过分配和发送则给出了574%的加速(10:10)。

我的问题是 - 如何衡量特定的代码?是否需要手动提取底层c命令,然后以某种方式让运行时运行它们?

这是一个非常有趣的观察,但我如何重新创建实验呢?

1 个答案:

答案 0 :(得分:6)

让我们来看看这个python函数:

def py_fun(i,N,step):
     res=0.0
     while i<N:
        res+=i
        i+=step
     return res

并使用ipython-magic来计时:

In [11]: %timeit py_fun(0.0,1.0e5,1.0)
10 loops, best of 3: 25.4 ms per loop

解释器将运行生成的字节码并对其进行解释。但是,我们可以通过使用cython for / cython化相同的代码来删除解释器:

%load_ext Cython
%%cython
def cy_fun(i,N,step):
     res=0.0
     while i<N:
        res+=i
        i+=step
     return res

我们的速度提高了50%:

In [13]: %timeit cy_fun(0.0,1.0e5,1.0)
100 loops, best of 3: 10.9 ms per loop

当我们查看生成的c代码时,我们看到正确的函数被直接调用而不需要被解释/调用ceval,在这里删除了样板代码:

static PyObject *__pyx_pf_4test_cy_fun(CYTHON_UNUSED PyObject *__pyx_self, PyObject *__pyx_v_i, PyObject *__pyx_v_N, PyObject *__pyx_v_step) {
  ...
  while (1) {
    __pyx_t_1 = PyObject_RichCompare(__pyx_v_i, __pyx_v_N, Py_LT); 
    ...
    __pyx_t_2 = __Pyx_PyObject_IsTrue(__pyx_t_1);
    ...
    if (!__pyx_t_2) break;
    ...
    __pyx_t_1 = PyNumber_InPlaceAdd(__pyx_v_res, __pyx_v_i);
    ...
    __pyx_t_1 = PyNumber_InPlaceAdd(__pyx_v_i, __pyx_v_step); 
  }
  ...
  return __pyx_r;
}

然而,这个cython函数处理python-objects而不是c-style float,所以在函数PyNumber_InPlaceAdd中有必要弄清楚这些对象(整数,浮点数,其他东西?)到底是什么将此调用发送到可以完成工作的正确功能。

在cython的帮助下,我们还可以消除对此调度的需要,并直接调用浮点数的乘法:

 %%cython
 def c_fun(double i,double N, double step):
      cdef double res=0.0
      while i<N:
         res+=i
         i+=step
      return res

在此版本中,iNstepres是c风格的双打,不再是python对象。因此,不再需要调用PyNumber_InPlaceAdd之类的调度函数,但我们可以直接调用+ - double的运算符:

static PyObject *__pyx_pf_4test_c_fun(CYTHON_UNUSED PyObject *__pyx_self, double __pyx_v_i, double __pyx_v_N, double __pyx_v_step) {
  ...
  __pyx_v_res = 0.0;  
  ... 
  while (1) {
    __pyx_t_1 = ((__pyx_v_i < __pyx_v_N) != 0);
    if (!__pyx_t_1) break;
    __pyx_v_res = (__pyx_v_res + __pyx_v_i);
    __pyx_v_i = (__pyx_v_i + __pyx_v_step);
  }
  ...
  return __pyx_r;
}

结果是:

In [15]: %timeit c_fun(0.0,1.0e5,1.0)
10000 loops, best of 3: 148 µs per loop

现在,与没有翻译但没有翻译的版本相比,这是一个近100的加速。

实际上,要说,派遣+分配是这里的瓶颈(因为消除它导致加速几乎100倍)是一个谬论:口译员负责超过50%的运行时间(15 ms)并且“仅”发送和分配10ms。

然而,除了“解释器”和动态调度之外,还有更多的问题:Float是不可变的,因此每次更改时都必须在垃圾收集器中创建和注册/取消注册新对象。

我们可以引入可变浮动,它们已经就地改变了,不需要注册/取消注册:

%%cython
cdef class MutableFloat: 
 cdef double x      
 def __cinit__(self, x):
    self.x=x         
 def __iadd__(self, MutableFloat other):
    self.x=self.x+other.x
    return self
 def __lt__(MutableFloat self,  MutableFloat other):
    return self.x<other.x
 def __gt__(MutableFloat self, MutableFloat other):
    return self.x>other.x
 def __repr__(self):
    return str(self.x)

时间安排(现在我使用不同的机器,所以时间有点不同):

def py_fun(i,N,step,acc):
        while i<N:
             acc+=i
             i+=step
        return acc

%timeit py_fun(1.0, 5e5,1.0,0.0)
30.2 ms ± 1.12 ms per loop (mean ± std. dev. of 7 runs, 10 loops each 
%timeit cy_fun(1.0, 5e5,1.0,0.0)
16.9 ms ± 612 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
%timeit i,N,step,acc=MutableFloat(1.0),MutableFloat(5e5),MutableFloat(1
    ...: .0),MutableFloat(0.0); py_fun(i,N,step,acc)
23 ms ± 254 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
%timeit i,N,step,acc=MutableFloat(1.0),MutableFloat(5e5),MutableFloat(1
...: .0),MutableFloat(0.0); cy_fun(i,N,step,acc)
11 ms ± 66.2 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

不要忘记重新初始化i,因为它是可变的!结果

            immutable       mutable
 py_fun       30ms           23ms
 cy_fun       17ms           11ms

因此,在使用解释器的版本中注册/取消注册浮动(我不确定没有其他任何角色扮演)需要高达7ms(约20%),并且在没有版本的版本中超过33%解释

现在看起来:

  • 40%(13/30)的时间由翻译使用
  • 最多33%的时间用于动态调度
  • 最多20%的时间用于创建/删除临时对象
  • 约为1%的算术运算

另一个问题是数据的局部性,这对于存储器带宽限制问题变得明显:如果数据线性地连续处理一个连续的存储器地址,则现代缓存很有效。这适用于循环std::vector<>(或array.array),但不适用于循环python列表,因为此列表包含指向内存中任何位置的指针。

考虑以下python脚本:

#list.py
N=int(1e7)
lst=[0]*int(N)
for i in range(N):
  lst[i]=i
print(sum(lst)) 

#byte
N=int(1e7)
b=bytearray(8*N)
m=memoryview(b).cast('L') #reinterpret as an array of unsigned longs
for i in range(N):
  m[i]=i
print(sum(m))

它们都创建1e7个整数,第一个版本是Python整数,第二个是低级c-int,它们连续放在内存中。

有趣的是,这些脚本产生了多少缓存未命中(D):

valgrind --tool=cachegrind python list.py 
...
D1  misses:        33,964,276  (   27,473,138 rd   +     6,491,138 wr)

valgrind --tool=cachegrind python bytearray.py 
...
D1  misses:         4,796,626  (    2,140,357 rd   +     2,656,269 wr)

这意味着python-integers有8次缓存未命中。它的一部分是因为python整数需要超过8个字节(可能是32字节,即因子4)的内存和(可能不是100%肯定,因为相邻的整数是在彼此之后创建的,所以机会很高,它们在内存中的某个地方存储,需要进一步调查),因为事实上它们没有在内存中对齐,因为bytearray的c-整数就是这种情况。