Tensorflow对象检测未正确保存检查点

时间:2019-03-31 18:24:36

标签: tensorflow object-detection

我正在尝试使用Tensorflow对象检测库和ssd_mobilenet_v1_coco模型训练图像检测器。训练时,它指出已保存检查点,但是,当我检查保存到的文件夹时,只有我开始使用的检查点,没有新的编号。知道为什么会这样吗?

我的Tensorflow版本是1.12,我使用Anaconda来管理依赖项。 由于新脚本存在一些错误,我目前正在使用旧版培训脚本。我尝试修改trainer.py以最多保存十个模型,并通过添加来保存每5分钟一次

max_to_keep=10

到保护程序和

save_interval_secs=5*60

苗条学习培训。

不幸的是,这并没有解决任何问题。

在培训期间,我确实收到了以下消息:

INFO:tensorflow:global step 7669: loss = 4.7803 (6.009 sec/step)
INFO:tensorflow:Saving checkpoint to path ~/tensorflow/parkingmodel/models/model/train/model.ckpt

但是ls命令显示:

(base) cj@cj-PC:~/tensorflow/parkingmodel/models/model/train$ ls
model.ckpt.data-00000-of-00001  model.ckpt.index  model.ckpt.meta

这是我用来训练模型的命令

python object_detection/legacy/train.py \
--pipeline_config_path=/home/cj/tensorflow/parkingmodel/models/model/pipeline.config \
--train_dir=~/tensorflow/parkingmodel/models/model/train \
--logtostderr

我希望找到诸如model.ckpt-7669.index之类的内容,以及其他内容,但我只拥有默认的内容。但是,很奇怪的是,如果我重新开始训练,它又从上一个会话结束的步骤重新开始(在这种情况下,它将是7669)。

不确定在这里接下来要尝试什么。

0 个答案:

没有答案