我是OpenCL世界的新手,我想增加对它的了解。
我试图找到有关如何使用OpenCL构建“复杂功能”的信息。对于“复杂函数”,我指的是可以并行化并且内部具有可并行化的函数的函数。 我见过如下链接:
现在,我在这里提出我的问题,我将使用一个例子:
// A and B are int vectors
// The value of M and N are different!! M != N
for(int i=0; i<=M-2;i++){
for(int j=i+1;j<=M-1;j++){
distance=calculate_distance(A[i],B[j]);
//more sequential instructions
}
}
calculate_distance连接两个向量并有一个循环:
for(int i=0; i<=N-1;i++)
// Some sequential instructions
这个完整的代码片段可以并行化吗?在那种情况下如何(这是内核中的tittle内核的原因)?
注意: 我正在使用OpenCL的英特尔(R)SDK - 离线编译器2012(Windows)来检查我的内核。
提前致谢
答案 0 :(得分:1)
为了编写并行代码,您需要更加关注数据流。您的输入数据是什么样的?您的输出数据是什么样的?如何将输入数据转换为输出数据?
关于你的问题:
提示:
同时检查Converting C/C++ for loops into CUDA - 它的CUDA不是OpenCL,但原则是相似的。
如果您的输出数据只是一个值(例如最大距离),您可能需要查看缩减内核并了解它们的工作原理。
答案 1 :(得分:-1)
使您的功能re-entrant。