标签: c cuda
如果我在同一个上下文中启动多个CUDA内核,并且内核之间存在依赖关系(输入中的第一个输出到第二个内核等),控制是否会在每个内核完成后返回主机它的执行?如果没有,您能否简要描述“内核入队”机制如何在CUDA卡上运行?
答案 0 :(得分:0)
http://on-demand.gputechconf.com/gtc-express/2011/presentations/StreamsAndConcurrencyWebinar.pdf
请看幻灯片9和10。
使用音频:https://developer.nvidia.com/gpu-computing-webinars
寻找cuda并发&流。