标签: cuda
是否有可能确定整个GPU上最大驻留块的数量,以避免重复内核执行作为全局障碍的必要性?
更确切地说,我希望避免将部分结果复制到全局内存和内核执行成本的成本。因此,工作将公平地分配给每个块,并且块将相当地交替计算,直到其中一个块找到结果。
非常感谢。
答案 0 :(得分:0)
This线程可能对您有用。通常,如果任务完全并行,则不会为剩余的数据启动新内核。相反,你可以在内核中循环。