深度学习 VM:如何释放 RAM?

时间:2021-07-19 03:23:37

标签: python tensorflow google-cloud-platform google-dl-platform

我是 GCP 和深度学习 VM 的新手。我用它来训练一些深度学习模型。在谷歌云 jupyter notebook 中训练时它崩溃了,因为它无法将输入张量从 GPU 复制到 CPU:特别是:

InternalError: Failed copying input tensor from /job:localhost/replica:0/task:0/device:GPU:0 to /job:localhost/replica:0/task:0/device:CPU:0 in order to run TensorDataset: Dst tensor is not initialized. [Op:TensorDataset]

经过调查,当 GPU 中没有足够的内存时会发生这种情况。我检查了我的内存,在我初始化 VM 后运行了大约一个小时后,我的 RAM 已满 95%。我不知道这是怎么发生的。我怎样才能释放这个内存?

1 个答案:

答案 0 :(得分:2)

发现即使在python脚本终止后GPU中的内存仍然存在。运行 nvidia-smi 查看是否有 python 进程占用 GPU 内存,如果有,运行 pkill -9 python 以杀死 python 的所有相关内存和进程。