Tensorflow-GPU对象检测API在首次保存检查点后卡住

时间:2019-05-29 07:37:48

标签: python tensorflow gpu object-detection-api

我正在尝试使用Tensorflow对象检测API和Tensorflow GPU来训练SSD mobilenet v2。训练进行得很好并且很快,直到保存了第一个检查点(经过几百个步骤),然后在恢复最后一个检查点后卡住了。 GPU使用率下降,并且永远不会上升。有时Python本身也会崩溃。

我正在Windows 7上运行Tensorflow GPU,并使用NVIDIA Quadro M4000和CUDA 8.0(我设法使用的唯一版本)。该模型是经过COCO预训练的SSD Mobilenet v2,批处理量非常低,为4。

配置文件与从Tensorflow Model ZOO中获得的配置文件相同,当然会更改路径,批处理大小,类数和步骤数,并添加随机播放:在训练部分为true。

我要添加显示的终端信息。这就是卡住的地方。

有人遇到过类似的问题吗?不知道为什么吗?

预先感谢

enter image description here

1 个答案:

答案 0 :(得分:0)

我遇到了与您所说的相同的问题。我等了很长时间,发现了一些有趣的东西。我得到了一些评估结果。此后,培训过程继续进行。评估过程似乎花费了太多时间。由于开始时没有输出,因此就像卡住了一样。也许更改参数“ sample_1_of_n_eval_examples”会有所帮助。我正在尝试...