是否可以通过nvprof(或其他方法)看到Tensor Cores上是否发生了内核执行?

时间:2017-12-20 20:31:24

标签: cuda gpu nvidia cudnn nvprof

我试图在Titan V / V100上识别深度学习模型的GPU执行性能瓶颈。 我理解必须满足某些要求才能在基于https://devblogs.nvidia.com/parallelforall/programming-tensor-cores-cuda-9/

的Tensor内核上执行基础内核执行

" nvprof"提供了一种在GPU上转储所有内核执行的简单方法,但似乎并未说明Tensor Core是否实际使用过。 这是捕获此类信息的方法吗?

1 个答案:

答案 0 :(得分:1)

根据NVIDIA提出的“ {3}混合精度训练神经网络”,您可以使用nvprof查看是否使用了Tensor Core。

幻灯片的第12页本质上说要使用nvprof运行该程序并寻找“ 884”内核。

例如

$ nvprof python test.py
...
37.024us 1 37.024us 37.024us 37.024us volta_fp16_s884gemm_fp16…