如何实时监控NVidia GPU性能(使用情况,内存和Tx / Rx)?

时间:2018-09-29 13:01:32

标签: gpu monitoring nvidia

我正在运行NVidia多GPU环境,并想实时监视性能指标:

  • GPU使用率
  • GPU内存
  • NVLink和PCIe收发(间隔之和)

最后,这应该是机器可读的(例如prometheus),但我想我可以解决这个问题。

有几个不同的应用程序正在运行,而且我无法破解代码,因此进入CUDA并不是一种选择。

据我所知,其他非选择是:

  • DCGM,因为它没有详细显示有关所有Tx / Rx的指标
  • nvprof,因为它不能实时运行,并且显然会被弃用
  • Nsight Compute CLI,因为它不能实时运行并且没有详细显示收发信息
  • nvidia-smi dmon,因为它仅显示PCI,而不显示NVLink

0 个答案:

没有答案