应用错误收集

时间：2019-05-29 07:37:48

标签： python tensorflow gpu object-detection-api

我正在尝试使用Tensorflow对象检测API和Tensorflow GPU来训练SSD mobilenet v2。训练进行得很好并且很快，直到保存了第一个检查点（经过几百个步骤），然后在恢复最后一个检查点后卡住了。 GPU使用率下降，并且永远不会上升。有时Python本身也会崩溃。

我正在Windows 7上运行Tensorflow GPU，并使用NVIDIA Quadro M4000和CUDA 8.0（我设法使用的唯一版本）。该模型是经过COCO预训练的SSD Mobilenet v2，批处理量非常低，为4。

配置文件与从Tensorflow Model ZOO中获得的配置文件相同，当然会更改路径，批处理大小，类数和步骤数，并添加随机播放：在训练部分为true。

我要添加显示的终端信息。这就是卡住的地方。

有人遇到过类似的问题吗？不知道为什么吗？

预先感谢

答案 0 :(得分：0)

我遇到了与您所说的相同的问题。我等了很长时间，发现了一些有趣的东西。我得到了一些评估结果。此后，培训过程继续进行。评估过程似乎花费了太多时间。由于开始时没有输出，因此就像卡住了一样。也许更改参数“ sample_1_of_n_eval_examples”会有所帮助。我正在尝试...