在 GPU 上使用 Tensorflow 1.15 训练机器学习模型时清除内存

时间:2021-03-04 20:00:40

标签: python-3.x tensorflow gpu

我正在使用 GPU 训练一个非常密集的 ML 模型,如果我开始训练模型,然后让它训练几个 epochs 并注意到我的更改没有对损失产生显着影响,那么经常会发生什么/accuracy,我将进行编辑,重新初始化模型并从 epoch 0 重新开始训练。在这种情况下,我经常会出现 OOM 错误。

我的猜测是,尽管我覆盖了所有模型变量,但仍有一些东西占用了内存空间。

有没有办法在 Tensorflow 1.15 中清除 GPU 的内存,这样每次我想从头开始训练时都不必不断重启内核?

1 个答案:

答案 0 :(得分:0)

这完全取决于您使用的 GPU。我假设您使用的是 NVIDIA,但即使如此,根据确切的 GPU,也有三种方法可以做到这一点-

  1. nvidia-smi -r 适用于 TESLA 和其他现代变体。
  2. nvidia-smi --gpu-reset 适用于各种较旧的 GPU。
  3. 不幸的是,重启是剩下的唯一选择。
相关问题