我想知道在openCL中处理一堆2D数组的最佳方法是什么。我的目标平台是GPGPU。根据我的问题,我认为最好让每个工作组管理一个数组。
就将数组传递给每个工作组来说,我很想在clEnqueueNDRangeKernel中设置global_worksize = numArrays * N * M和local_worksize = N * M.然后我会像3D数组一样对数组进行处理:
(numArrays*localSize*wgroupID)+localSize*x+y
这有意义吗?我一直在尝试搜索互联网以恢复一些最佳实践或示例,但我很难这样做。
谢谢!