我正在使用 GPU 训练一个非常密集的 ML 模型,如果我开始训练模型,然后让它训练几个 epochs 并注意到我的更改没有对损失产生显着影响,那么经常会发生什么/accuracy,我将进行编辑,重新初始化模型并从 epoch 0 重新开始训练。在这种情况下,我经常会出现 OOM 错误。
我的猜测是,尽管我覆盖了所有模型变量,但仍有一些东西占用了内存空间。
有没有办法在 Tensorflow 1.15 中清除 GPU 的内存,这样每次我想从头开始训练时都不必不断重启内核?
答案 0 :(得分:0)
这完全取决于您使用的 GPU。我假设您使用的是 NVIDIA,但即使如此,根据确切的 GPU,也有三种方法可以做到这一点-
nvidia-smi -r
适用于 TESLA 和其他现代变体。nvidia-smi --gpu-reset
适用于各种较旧的 GPU。