我试图在Titan V / V100上识别深度学习模型的GPU执行性能瓶颈。 我理解必须满足某些要求才能在基于https://devblogs.nvidia.com/parallelforall/programming-tensor-cores-cuda-9/
的Tensor内核上执行基础内核执行" nvprof"提供了一种在GPU上转储所有内核执行的简单方法,但似乎并未说明Tensor Core是否实际使用过。 这是捕获此类信息的方法吗?
答案 0 :(得分:1)
根据NVIDIA提出的“ {3}混合精度训练神经网络”,您可以使用nvprof
查看是否使用了Tensor Core。
幻灯片的第12页本质上说要使用nvprof
运行该程序并寻找“ 884”内核。
例如
$ nvprof python test.py
...
37.024us 1 37.024us 37.024us 37.024us volta_fp16_s884gemm_fp16…