并行化函数,内核中的内核是否可行? gcc OpenCL

时间:2013-01-03 14:04:55

标签: c opencl

我是OpenCL世界的新手,我想增加对它的了解。

我试图找到有关如何使用OpenCL构建“复杂功能”的信息。对于“复杂函数”,我指的是可以并行化并且内部具有可并行化的函数的函数。 我见过如下链接:

现在,我在这里提出我的问题,我将使用一个例子:

// A and B are int vectors
// The value of M and N are different!! M != N
for(int i=0; i<=M-2;i++){
  for(int j=i+1;j<=M-1;j++){
    distance=calculate_distance(A[i],B[j]);
    //more sequential instructions
  }
}

calculate_distance连接两个向量并有一个循环:

for(int i=0; i<=N-1;i++)
  // Some sequential instructions

这个完整的代码片段可以并行化吗?在那种情况下如何(这是内核中的tittle内核的原因)?

注意:  我正在使用OpenCL的英特尔(R)SDK - 离线编译器2012(Windows)来检查我的内核。

提前致谢

2 个答案:

答案 0 :(得分:1)

为了编写并行代码,您需要更加关注数据流。您的输入数据是什么样的?您的输出数据是什么样的?如何将输入数据转换为输出数据?

关于你的问题:

  • 无法确定您提供的示例是否可并行化,因为数据流不明显。
  • 您可以从内核代码中调用函数,它们将被内联到内核中。

提示:

同时检查Converting C/C++ for loops into CUDA - 它的CUDA不是OpenCL,但原则是相似的。

如果您的输出数据只是一个值(例如最大距离),您可能需要查看缩减内核并了解它们的工作原理。

答案 1 :(得分:-1)

使您的功能re-entrant