我可以获得每个内核的warp_execution_efficiency,但是如何获得我的程序的总warp_execution_efficiency?
答案 0 :(得分:3)
注意:计算所有内核中的单个数字不太可能对优化有用。
NVIDIA的分析器是以内核为中心的,因此无法直接查询该信息。但是,您可以运行nvprof --csv --metrics warp_execution_efficiency
,然后将输出放入Excel,R或您最喜欢的统计软件中,并将其弄乱。
这方面的一个问题是warp_execution_efficiency涉及平均值,因此您无法取平均值。您可能能够获得Visual Profiler无法提供的一些方便的可视化。