我的CUDA代码必须使用(减少到平均值/标准,计算直方图)4个数组,每个2048个浮点长并且已经存储在以前内核的设备内存中。
通常建议至少启动与多处理器一样多的块。但是,在这种情况下,我可以将每个数组加载到单个块的共享内存中,因此只能启动4个块。
这远不是“保持gpu忙”但是如果我使用更多的块,我将需要通过全局内存进行更多的块间通信,并且我预计由于额外的额外时间,多处理器的任何额外利用将是静脉用于将数据传入和传出全局内存。
在这种情况下并行化的最佳方法是什么?
答案 0 :(得分:1)
CUDA中不建议使用块间通信。此外,Fermi将支持并发内核执行,因此未来更高的占用率将变得不那么重要。所以我建议现在只留下较低的占用率,除非性能低得令人无法接受。
答案 1 :(得分:1)
This example显示了如何使用Thrust在一次缩减中计算所有“摘要统计信息”。另一个示例显示了如何使用thrust::sort
计算直方图。
答案 2 :(得分:0)
你正在做的工作量相对较小,所以你应该坚持使用四个街区。对于先前/后续内核,保持GPU本地数据仍然是一个优势。
Fermi将允许并发内核,正是这种情况最有利,因为在内核执行时你可以启动下一个内核来占用剩余的SM。但是,这确实假设两个内核之间没有依赖关系 - 当然,在上一个内核完成之前,您将无法启动依赖于先前内核结果的新内核。
答案 3 :(得分:0)
我认为您不需要同时使用所有2048个浮点数,如果必须减少,则可以将数组拆分为不同的部分,然后在块执行结束时合并结果。你能展示一些示例代码吗?