我正在尝试使用Tensorflow对象检测库和ssd_mobilenet_v1_coco模型训练图像检测器。训练时,它指出已保存检查点,但是,当我检查保存到的文件夹时,只有我开始使用的检查点,没有新的编号。知道为什么会这样吗?
我的Tensorflow版本是1.12,我使用Anaconda来管理依赖项。 由于新脚本存在一些错误,我目前正在使用旧版培训脚本。我尝试修改trainer.py以最多保存十个模型,并通过添加来保存每5分钟一次
max_to_keep=10
到保护程序和
save_interval_secs=5*60
苗条学习培训。
不幸的是,这并没有解决任何问题。
在培训期间,我确实收到了以下消息:
INFO:tensorflow:global step 7669: loss = 4.7803 (6.009 sec/step)
INFO:tensorflow:Saving checkpoint to path ~/tensorflow/parkingmodel/models/model/train/model.ckpt
但是ls命令显示:
(base) cj@cj-PC:~/tensorflow/parkingmodel/models/model/train$ ls
model.ckpt.data-00000-of-00001 model.ckpt.index model.ckpt.meta
这是我用来训练模型的命令
python object_detection/legacy/train.py \
--pipeline_config_path=/home/cj/tensorflow/parkingmodel/models/model/pipeline.config \
--train_dir=~/tensorflow/parkingmodel/models/model/train \
--logtostderr
我希望找到诸如model.ckpt-7669.index之类的内容,以及其他内容,但我只拥有默认的内容。但是,很奇怪的是,如果我重新开始训练,它又从上一个会话结束的步骤重新开始(在这种情况下,它将是7669)。
不确定在这里接下来要尝试什么。