从上一篇文章strategy-for-doing-final-reduction中,我想了解 OpenCL 2.x提供的最新功能(不是以上上一篇文章的主题1.x) ,特别是关于允许执行数组约简的原子函数(在我的情况下为总约简)。
一个告诉我,OpenCL 1.x原子函数(atom_add
)的性能很差,我可以检查一下,因此我正在寻找一种方法来获得final reduction function
的最佳性能(即对应于每个工作组的每个计算出的总和。
我回想一下我目前正在使用的典型内核代码:
__kernel void sumGPU ( __global const double *input,
__global double *partialSums,
__local double *localSums)
{
uint local_id = get_local_id(0);
uint group_size = get_local_size(0);
// Copy from global memory to local memory
localSums[local_id] = input[get_global_id(0)];
// Loop for computing localSums
for (uint stride = group_size/2; stride>0; stride /=2)
{
// Waiting for each 2x2 addition into given workgroup
barrier(CLK_LOCAL_MEM_FENCE);
// Divide WorkGroup into 2 parts and add elements 2 by 2
// between local_id and local_id + stride
if (local_id < stride)
localSums[local_id] += localSums[local_id + stride];
}
// Write result into partialSums[nWorkGroups]
if (local_id == 0)
partialSums[get_group_id(0)] = localSums[0];
}
如您所见,在内核代码执行结束时,我得到包含所有部分和的数组partialSums[number_of_workgroups]
。
请告诉我如何执行此数组的第二次也是最后一次还原,以最大可能的性能使用OpenCL 2.x提供的功能。 经典的解决方案是使用CPU执行最后的还原,但理想情况下,我想直接使用内核代码来完成。
欢迎提供代码段的建议。
最后一点,我正在使用以下模型开发MacOS High Sierra 10.13.5:
可以在我的硬件MacOS模型上安装OpenCL 2.x吗?
致谢
答案 0 :(得分:0)
应避免使用原子功能,因为与并行归约内核相比,原子功能会损害性能。您的内核看起来处于正确的轨道上,但是您需要记住,您必须多次调用它。不要在主机上执行最终的总和(除非您之前还原的数据量很小)。也就是说,您需要继续调用它,直到您的本地大小等于全局大小为止。由于无法在工作组之间进行同步,因此无法对大量数据进行一次调用。
此外,您还需要谨慎设置适当的工作组大小(即本地大小),具体取决于本地和全局内存的吞吐量和延迟。不幸的是,据我所知,没有办法通过OpenCL在自我分析代码之外确定这一点,尽管OCL为您提供JIT编译功能,但编写起来并不难。通过经验测试,我发现您应该在遭受太多银行冲突(本地大小太大)与全局内存延迟惩罚(本地大小太小)之间找到一个甜蜜点。最好先做一个基准测试,以确定您要减少的最佳局部大小,然后再使用该局部大小进行将来的减少。
编辑:同样值得注意的是,将内核调用链接在一起的最佳方法是通过OpenCL事件。