我试图在同时执行两个内核的同时用nvprof读取性能计数器。
nvprof --concurrent-kernels on --events fb_subp0_write_sectors ./myprogram
然而,通过这样做,内核执行似乎是序列化的。我想要的就是它们在同时运行时的表现。
当内核同时运行时,是否可以读取性能计数器?我不一定需要每个内核的性能,聚合数据非常好。
我正在使用计算机3.5运行Kepler gpu。
答案 0 :(得分:3)
没有。 nvprof v7.5及更早版本不支持以调查并发内核性能的方式收集性能计数器。我建议您通过NVIDIA开发人员计划提交功能请求。这是在团队任务列表中。客户反馈有助于在列表中移动功能。