不幸的是,基于fermi的GPU会将任何内核时序跟踪为并行Nsight中的序列化,即使它们是不同流中的并发内核。
任何人都可以建议如何使用计时器手动显示不同流中的内核并发性。
干杯 艾德
答案 0 :(得分:2)
使用Nsight进行性能分析当前会禁用并发内核,因此要获得准确的计时,您需要使用事件来跟踪时间。
您可以按预期使用事件,并且可以使用cudaStreamWaitEvent()
使流等待另一个流中的事件。有关详细信息,请参阅CUDA Reference Manual部分4.5.2.5。