我在Volta架构(V100 GPU)上使用NVIDIA Tensor Core。我想衡量Tensor Core对我的代码的影响(Tensorflow / Python中的卷积神经网络用于测试)。
如何测量Tensor Cores加速?是否可以禁用Tensor Core并在有/没有它们的情况下运行相同的代码?
我尝试过的事情:
TF_DISABLE_CUDNN_TENSOR_OP_MATH
设置为1(来自this)。但是我仍然看到使用了Tensor Core。更准确地说,我在nvprof
日志中看到:volta_s884cudnn_fp16
行(此选项消失)和volta_s884gemm_fp16
(仍在此处)。附带问题:这些行是什么意思?tf.float16
和tf.float32
中训练相同的网络,但结果相同,我看到了改进,但无法确定缩小模型尺寸是什么原因。在此先感谢您的帮助/建议。
答案 0 :(得分:0)
我选择了一个骇客来估计Tensor Cores的性能提升:
float32
的Pascal和Volta架构上都运行过代码(以评估该架构的性能提升)。float16
中运行了代码,并假设该架构的性能提升与float32
和float16
相同,我可以估计(float16
中的性能提升可归因于Tensor Cores。