应用错误收集

时间：2014-05-26 17:18:56

标签： opencl

答案 0 :(得分：1)

良好的分区需要了解您的GPU硬件。例如，让我们看一下像Radeon 6970这样的AMD显卡。核心总数为1536.它们采用24个SIMD单元包装。每个单元由16个具有VLIW4架构的流处理器组成。因此，我们有16 * 4（因为VLIW4）* 24 = 1536核心。每个SIMD单元共享其中所有核心的一些资源（缓存等）。因此，对于Radeon 6970，本地组的大小是64的某个倍数。您可以在OpenCL设备中查询计算单元的数量。在我们的例子中，你应该得到24.因此，对于Radeon 6970计算单元上的OpenCL = SIMD单元。请注意，手动分区可能会导致具有不同体系结构的设备性能下降。
可以在Nvidia developer zone找到本地团体福利的一个很好的例子。看一下bitonic排序示例代码，它将向您展示如何使用本地组。