我可以使用4个GPU(不是root用户)。其中一个GPU(第2个)的行为很奇怪,它们的内存被阻塞了,但是功耗和温度却很低(好像没有任何东西在运行)。在下图中查看nvidia-smi
中的详细信息:
如何在不干扰其他GPU上运行的进程的情况下重置GPU 2?
PS:我不是root用户,但我想我也可以抓住一些root用户。
答案 0 :(得分:0)
重置GPU可以通过某种方式解决您的问题,这可能是因为您的GPU配置
nvidia-smi --gpu-reset -i "gpu ID"
例如,如果您启用了带有GPU的nvlink,它就不会总是通过,并且看来您的nvidia-smi无法找到在您的gpu上运行的进程,您的情况的解决方案是查找并终止通过运行以下命令,将该gpu关联到该进程,并在其中找到通过融合器找到的PID
fuser -v /dev/nvidia*
kill -9 "PID"