我正在使用clEnqueueNDRangeKernel对内核进行排队。在local_work_size等于1的情况下,我在CPU上获得与GPU相同的数值结果。如果local_work_size等于NULL,我会得到不同的结果。请注意,我不是在谈论执行的速度;只是实际的结果。
哪些一般性问题可能导致这种情况?这是否表明内存泄漏只有在local_work_size = NULL时才会显现在GPU中?
内核:https://gist.github.com/dprentiss/10982016 编辑:更新gist以反映最近的变化。
OpenCL: Correct results on CPU not on GPU: how to manage memory correctly?有类似的症状,但我的内核(据我所知)只有一个global_id(0)。