从python传递到C ++的数组中未映射的内存访问

时间:2018-07-13 17:21:54

标签: python c++ pandas numpy pybind11

我正在使用pybind11将C ++类公开给python。

它在其构造函数中使用一个numpy.array,并获取一个指向其内部数据的指针。 (它不会复制数据。)

#include <pybind11/pybind11.h>
#include <pybind11/numpy.h>
#include <iostream>

namespace py = pybind11;

struct Data
{
    Data(const py::array_t<double, py::array::c_style| py::array::forcecast>& arr)
        : p(arr.data())
    {
        std::cout << "arr=" << p    << std::endl;
        std::cout << "[0]=" << p[0] << std::endl;
    }
    const double* p;
};

我还有另一个接受const Data&的类,从而可以访问数组数据。

struct Manager
{
    Manager(const Data& data)
        : data_(data)
    {
        const double* p = data_.p;

        std::cout << "data.arr=" << p    << std::endl;
        std::cout << "data.[0]=" << p[0] << std::endl;
    }
    const Data& data_;
};

这里使用pybind11将这两个类公开给python:

PYBIND11_MODULE(foo, m)
{
    py::class_<Data>(m, "Data")
        .def(py::init<const py::array_t<double, py::array::c_style| py::array::forcecast>&>());

    py::class_<Manager>(m, "Manager")
        .def(py::init<const Data&>());
}

这很好。我可以导入我的模块,从Data创建一个numpy.array实例,然后将其传递给Manager

>>> import pandas
>>> import numpy
>>> import foo

>>> df = pandas.DataFrame(data = numpy.random.rand(990000, 7))
>>> d = foo.Data(df.values)
>>> c = foo.Manager(d)

我的脚本工作正常,您可以看到我的C ++代码访问numpy.array数据并将其地址和第一个元素打印到stdout:

arr=0x7f47df313010
[0]=0.980507
data.arr=0x7f47df313010
data.[0]=0.980507

我创建的所有上述内容都是为了创建MCVE,以说明我在下面遇到的问题。

但是,现在,我加载了一个拥有(here is a download link for the pickle file in question)的pandas DataFrame泡菜文件:

>>> import pandas
>>> import foo

>>> df = pandas.read_pickle('data5.pk') 
>>> a = df.values
>>> d = foo.Data(a)
>>> c = foo.Manager(d)

我的C ++代码在尝试访问数组数据时崩溃。

这里是标准输出:

arr=0x7f8864241010
arr[0]=7440.7
data.arr=0x7f8864241010
<dumps core>

因此,指向数组的指针在Manager中是相同的,但是尝试取消引用该指针会导致SEGV。

通过valgrind运行它,valgrind报告Access not within mapped region at address 0x7f8864241010(即numpy.array的地址)。

Python对我的泡菜文件非常满意:

>>> import pandas

>>> df = pandas.read_pickle('data5.pk')
>>> df.shape
(990000, 7) 
>>> df
                  A             B             C            D            E  \
10000   7440.695240  15055.443905  14585.542158  3647.710616  8139.777981   
10001   7440.607794  15055.356459  14585.454712  3647.623171  8139.690536   
10002   7441.155761  15055.904426  14586.002679  3648.171138  8140.238503   
10003   7440.430209  15055.178874  14585.277127  3647.445585  8139.512950   
10004   7440.418058  15055.166724  14585.264977  3647.433435  8139.500800   
10005   7440.906603  15055.655268  14585.753521  3647.921979  8139.989344   
10006   7440.525167  15055.273832  14585.372085  3647.540543  8139.607908
...

我无法终生弄清楚我的泡菜锉刀出了什么问题。

  • 我尝试创建numpy.array并腌制,效果很好
  • 我尝试创建pandas.DataFrame并腌制,效果很好
  • 我将“无效”数据框切成薄片,可以得到一个工作正常的子集

我的数据中有一些令python满意的东西,但在C ++中导致SEGV。

我该如何诊断?

1 个答案:

答案 0 :(得分:2)

泡菜很好。是您的代码有误。您无需采取任何措施即可指向数组数据的指针,以确保该数据与使用它的对象一样长寿。

您需要保留对阵列的引用并执行相关的引用计数管理。 pybind11可能具有某种机制来表示Python引用并为您处理引用计数。快速浏览docs,您的代码似乎应该按值获取array_t而不是const引用(因为array_t已经表示一个Python引用),并将其存储到array_t实例变量。