定时并发CUDA内核

时间:2011-02-02 13:48:43

标签: cuda

不幸的是,基于fermi的GPU会将任何内核时序跟踪为并行Nsight中的序列化,即使它们是不同流中的并发内核。

任何人都可以建议如何使用计时器手动显示不同流中的内核并发性。

干杯 艾德

1 个答案:

答案 0 :(得分:2)

使用Nsight进行性能分析当前会禁用并发内核,因此要获得准确的计时,您需要使用事件来跟踪时间。

您可以按预期使用事件,并且可以使用cudaStreamWaitEvent()使流等待另一个流中的事件。有关详细信息,请参阅CUDA Reference Manual部分4.5.2.5。