应用错误收集

我正在使用clEnqueueNDRangeKernel对内核进行排队。在local_work_size等于1的情况下，我在CPU上获得与GPU相同的数值结果。如果local_work_size等于NULL，我会得到不同的结果。请注意，我不是在谈论执行的速度;只是实际的结果。

哪些一般性问题可能导致这种情况？这是否表明内存泄漏只有在local_work_size = NULL时才会显现在GPU中？

内核：https://gist.github.com/dprentiss/10982016 编辑：更新gist以反映最近的变化。

OpenCL: Correct results on CPU not on GPU: how to manage memory correctly?有类似的症状，但我的内核（据我所知）只有一个global_id（0）。