Tensorflow-GPU在训练期间无法保存检查点-也未使用整个GPU,不确定原因

时间:2019-11-26 01:56:54

标签: python tensorflow

GPU:Nvidia GTX 2070

Python版本:3.5

Tensorflow:1.13.1

CUDA:10

cuDNN:7.4

型号:Faster-RCNN-Inception-V2

我使用的是训练模型(trian.py)的旧方法,而当我这样运行模型时

python train.py --logtostderr --train_dir = training / --pipeline_config_path = training / faster_rcnn_inception_v2_pets.config

该培训会随机运行一段时间(通常在第150步左右卡住,但有时在尝试时有时会增加到300-700),然后在尝试保存检查点时会卡住。我说到了

INFO:tensorflow:全局步骤864:损耗= 0.4430(0.996秒/步)

INFO:tensorflow:将检查点保存到path training / model.ckpt

INFO:tensorflow:将检查点保存到path training / model.ckpt

并且不会超过该点。一旦达到这一点,无论我尝试哪种方法,并且如果我希望进程停止运行,我都不得不简单地关闭终端窗口,我也无法杀死该程序。

另外,根据我所读的内容,该程序理论上在训练时应该使用接近我GPU的100%,但最终只能使用约10%。我不确定这两件事是否相关,但我觉得可能值得一提,尤其是考虑到如果我设法使其尽快运行,我希望尽快对其进行培训。

过去我曾见过其他人发布过类似问题的信息,但似乎都没有任何答案。如果有人有任何想法,请告诉我!谢谢。

1 个答案:

答案 0 :(得分:0)

在将Nvidia驱动程序从441.28版本升级到最新版本之前,遇到了同样的问题。 此后,训练将不停地进行或停止。