在C ++中从多线程CPU程序转向GPU

时间:2017-07-21 16:46:05

标签: c++ multithreading cuda gpu gpu-programming

我创建了一个程序,需要使用不同的输入参数多次调用函数(批量!!)。 为了加快速度,我多了这个多线程:

std::vector< MTDPDS* > mtdpds_list;
boost::thread_group thread_gp;
for (size_t feat_index = 0; feat_index < feat_parser.getNumberOfFeat(); ++feat_index)
{
    Feat* feat = feat_parser.getFeat(static_cast<unsigned int>(feat_index));

    // != 0 has been added to avoid a warning message during compilation
    bool rotatedFeat = (feat->flag & 0x00000020) != 0;
    if (!rotatedFeat)
    {
        Desc* desc = new Desc(total_sb, ob.size());

        MTDPDS* processing_data = new MTDPDS();
        processing_data->feat = feat;
        processing_data->desc = desc;
        processing_data->img_info = image_info;
        processing_data->data_op = &data_operations;
        processing_data->vecs_bb = vecs_bb;

        mtdpds_list.push_back(processing_data);

        thread_gp.add_thread(new boost::thread(compute_desc, processing_data));
    }
}

// Wait for all threads to complete
thread_gp.join_all();

这段代码是一个更大的代码片段,所以不要过分担心变量名称等... 重要的是我为每个包含输入和输出参数的线程创建一个对象(MTDPDS),然后生成一个调用我的处理函数compute_desc的线程,并在继续之前等待所有线程完成。

然而,我的for循环有大约2000多次迭代,这意味着我开始大约2000多个线程。我在集群上运行我的代码,所以速度非常快,尽管IMO仍需要太长时间。

我想把这部分移到GPU上(因为它有更多核心),虽然我是GPU编程的新手。

  1. 有没有办法(因为我已经有一个单独的计算功能)轻松移动它而不改变整个代码?就像一个可以像升级一样在GPU上启动线程的函数(比如用GPU线程替换boost线程)?
  2. 另外,我的计算功能是访问内存中加载的一些数据(这里是RAM),GPU是否需要将这些数据加载到GPU内存中,还是可以访问RAM(然后在这种情况下,哪一个更快) ?
  3. 最后一个问题(虽然我很确定我知道答案),是否有可能使其与硬件无关(因此我的代码可以在Nvidia,ATI等上运行......)
  4. 谢谢。

1 个答案:

答案 0 :(得分:3)

  • 1)最简单的解决方案是使用#pragma指令(OpenACC),它应该已经存在于GCC7中。

  • 2)您的数据应该是GPU友好的,了解数组结构

  • 3)你的compute_desc“内核”应该符合GPU标准,如果你不知道让它说它应该由编译器进行矢量化。

我希望它会有所帮助,我认为关于OpenACC tuto 的一些小教程应该是最好的解决方案,CUDA / OpenCL应该会在以后出现。我的2美分