标签: cuda
流可能比正常的CUDA程序花费更长的时间吗?保证流操作的数据块是独立的,并且允许来自设备端的内核执行和数据传输之间的重叠。
答案 0 :(得分:1)
要观察流之间的叠加,您应该使用带有conckerneltrace选项的命令行探查器。您还可以将分析输出保存为.csv文件,并将其导入Visual Profiler中。请参阅NVIDIA论坛帖子
conckerneltrace
CUDA stream performance