使用并发执行读取事件计数器

时间:2015-05-16 18:42:32

标签: cuda profiling nvidia

我试图在同时执行两个内核的同时用nvprof读取性能计数器。

nvprof --concurrent-kernels on --events fb_subp0_write_sectors ./myprogram

然而,通过这样做,内核执行似乎是序列化的。我想要的就是它们在同时运行时的表现。

当内核同时运行时,是否可以读取性能计数器?我不一定需要每个内核的性能,聚合数据非常好。

我正在使用计算机3.5运行Kepler gpu。

1 个答案:

答案 0 :(得分:3)

没有。 nvprof v7.5及更早版本不支持以调查并发内核性能的方式收集性能计数器。我建议您通过NVIDIA开发人员计划提交功能请求。这是在团队任务列表中。客户反馈有助于在列表中移动功能。