如何通过cython将numpy数组列表传递给C ++

时间:2018-09-12 06:44:47

标签: python c++ cython

我想将2d numpy数组的列表传递给c ++函数。我的第一个想法是使用std::vector<float *>来接收数组列表,但是我找不到传递列表的方法。

c ++函数如下所示:

double cpp_func(const std::vector<const float*>& vec) {
    return 0.0;
}

Cython函数是这样的:

cpdef py_func(list list_of_array):
    cdef vector[float*] vec
    cdef size_t i
    cdef size_t n = len(list_of_array)
    for i in range(n):
        vec.push_back(&list_of_array[i][0][0])  # error: Cannot take address of Python object
    return cpp_func(vec)

我尝试使用list_of_array声明list[float[:,:]],但也无法正常工作。

1 个答案:

答案 0 :(得分:2)

我将稍微更改您的函数的签名:

  • 对于每个numpy数组,该函数还需要知道此数组中的元素数
  • 数据是double *而不是float *,因为这对应于默认的np.float类型。但这可以根据您的需要进行调整。

这将导致以下c ++接口/代码(为方便起见,我将C-verbatim-code功能用于Cython> = 0.28):

%%cython --cplus -c=-std=c++11
from libcpp.vector cimport vector
cdef extern from *:
    """
    struct Numpy1DArray{
        double *ptr;
        int   size;
    };

    static double cpp_func(const std::vector<Numpy1DArray> &vec){
          // Fill with life to see, that it really works:
          double res = 0.0;
          for(const auto &a : vec){
              if(a.size>0)
                res+=a.ptr[0];
          }
          return res;
    }   
    """
    cdef struct Numpy1DArray:
        double *ptr
        int size          
    double cpp_func(const vector[Numpy1DArray] &vec)
    ...

struct Numpy1DArray只是捆绑了一个np数组所需的信息,因为这不仅仅是指向连续数据的指针。


朴素版本

现在,编写包装函数非常简单:

%%cython --cplus -c=-std=c++11
....
def call_cpp_func(list_of_arrays):
  cdef Numpy1DArray ar_descr
  cdef vector[Numpy1DArray] vec
  cdef double[::1] ar
  for ar in list_of_arrays:  # coerse elements to double[::1]
        ar_descr.size = ar.size
        if ar.size > 0:
            ar_descr.ptr = &ar[0]
        else:
            ar_descr.ptr = NULL  # set to nullptr
        vec.push_back(ar_descr)

  return cpp_func(vec)

有些事情值得注意:

  • 您需要将list的元素强制为实现缓冲协议的某种内容,否则&ar[0]显然将不起作用,因为Cython希望ar[0]是Python对象。顺便说一句,这就是您所错过的。
  • 我选择了Cython的内存视图(即double[::1])作为强制目标。与np.ndarray相比,优点在于它还可以与array.array一起使用,并且还可以自动检查数据是否连续(这就是::1的含义)。
  • 常见的陷阱是访问ar[0]来获取空的ndarray-此访问必须受到保护。
  • 此代码不是线程安全的。另一个线程可能使指针无效,例如,通过就地调整numpy数组的大小或完全删除numpy数组来实现。
  • IIRC,对于Python 2,您必须cimport array才能使代码与array.array一起使用。

最后,这是一个测试代码是否有效的测试(列表中也有array.array可以说明这一点)

import array
import numpy as np
lst = (np.full(3, 1.0), np.full(0, 2.0), array.array('d', [2.0]))
call_cpp_func(lst)  # 3.0 as expected!

线程安全版本

上面的代码也可以用线程安全的方式编写。可能的问题是:

  1. 另一个线程可以通过调用例如list_of_arrays.clear()来触发numpy-array的删除-之后,周围将不再有数组的引用,它们将被删除。这意味着只要使用指针,就需要保留对每个输入数组的引用。
  2. 另一个线程可以调整数组的大小,从而使指针无效。这意味着我们必须使用缓冲区协议-它的__getbuffer__会锁定缓冲区,因此一旦完成计算,它就不会失效并且无法通过__releasebuffer__释放缓冲区。

Cython的内存视图可用于锁定缓冲区并保持对输入数组的引用:

%%cython --cplus -c=-std=c++11
....
def call_cpp_func_safe(list_of_arrays):
     cdef Numpy1DArray ar_descr
     cdef vector[Numpy1DArray] vec
     cdef double[::1] ar
     cdef list stay_alive = []
     for ar in list_of_arrays:  # coerse elements to double[::1]
            stay_alive.append(ar)    # keep arrays alive and locked
            ar_descr.size = ar.size
            if ar.size > 0:
                ar_descr.ptr = &ar[0]
            else:
                ar_descr.ptr = NULL  # set to nullptr
            vec.push_back(ar_descr)
     return cpp_func(vec)

开销很小:将内存视图添加到列表中-安全性的代价。


发布gil

最后一项改进:可以在计算cpp_fun时释放gil,这意味着我们必须将cpp_func导入为nogil并释放它,以调用函数:

%%cython --cplus -c=-std=c++11
from libcpp.vector cimport vector
cdef extern from *:
    ....          
    double cpp_func(const vector[Numpy1DArray] &vec) nogil
...

def call_cpp_func(list_of_arrays):
...
    with nogil:
        result = cpp_func(vec)       
    return result

Cython会发现result是double类型的,因此可以在调用cpp_func时释放gil。