应用错误收集

如果要在线程块之间进行通信（即交换数据），唯一的方法是使用全局内存。

至少，您需要某种可以访问每个队列头部的选择过程。我认为这几乎意味着你将把每个队列的头部放在全局内存中。由于您没有说明您在本地排序的地点＆＃34;数据驻留，这可能表示至少复制了那么多数据（例如，如果它们在本地排序并驻留在共享内存中）。
如果单个块需要加载所有队列，那么所有队列都需要通过各自的块放在全局内存中。

您的两个问题都意味着某种全球同步。您希望在收集所有队列之前对其进行排序。在CUDA中，除了内核启动之外，没有定义的全局同步机制。但是，根据您在此处描述的内容，您的算法可能适合类似threadfence reduction sample中概述的方法。每个线程块将完成它所需的工作（例如，对队列进行排序），然后单个线程块将执行清理任务，例如在单个线程块中收集队列和处理。我不确定这是否适合您的整体处理。如果没有，我的建议是首先将你的工作分解为单独的内核，并将内核启动作为同步点。

CUDA共享其他块的内存

1 个答案: