我似乎遇到了可以在计算引擎队列中排队的异步内核启动次数的限制。在此限制之后,主机被阻止,GPU-CPU并发性丢失。这在CUDA编程指南中没有提到。
答案 0 :(得分:3)
我不确定这个问题是否有一个普遍的答案,在某种程度上它是平台和CUDA版本特定的AFAIK。为了回答你的要点
我记得做一些基准测试,大约是CUDA 2.1,并发现一切都快速运行直到24个操作排队,然后后续操作排队的时间减慢了。当CUDA 3.0发布时,我没有任何代码可以达到旧版本中存在的限制,所以有些变化。编写一个基准来检查更多现代CUDA版本的功能应该是微不足道的。