重置单个GPU的内存使用情况

时间:2019-02-20 15:19:17

标签: gpu nvidia gpgpu

我可以使用4个GPU(不是root用户)。其中一个GPU(第2个)的行为很奇怪,它们的内存被阻塞了,但是功耗和温度却很低(好像没有任何东西在运行)。在下图中查看nvidia-smi中的详细信息: nvidia-smi output

如何在不干扰其他GPU上运行的进程的情况下重置GPU 2?

PS:我不是root用户,但我想我也可以抓住一些root用户。

1 个答案:

答案 0 :(得分:0)

重置GPU可以通过某种方式解决您的问题,这可能是因为您的GPU配置

nvidia-smi --gpu-reset -i "gpu ID"

例如,如果您启用了带有GPU的nvlink,它就不会总是通过,并且看来您的nvidia-smi无法找到在您的gpu上运行的进程,您的情况的解决方案是查找并终止通过运行以下命令,将该gpu关联到该进程,并在其中找到通过融合器找到的PID

fuser -v /dev/nvidia*

kill -9 "PID"