我有一个python作业,在nvidia GPU上运行图像处理功能。该作业从rabbitmq队列中获取图像,对其进行处理,然后将结果写入另一个队列。当我重新启动这个工作时,进程被杀死但内存没有被回收。
因此,经过一定数量的重启后,机器崩溃了。一旦我终止了这个工作,就没有在ps或者顶部运行的python进程,但CPU内存没有被回收。
如何调试此问题?
编辑:CPU内存
答案 0 :(得分:2)
你的GPU内存没有被释放。获取进程ID
$ nvidia-smi
然后
$ kill -9 <process id>