最近3个小时,我一直在GPU驱动的云机上使用以下命令运行培训工作:
python legacy/train.py --logtostderr --train_dir=training/ --pipeline_config_path=training/ssd_mobilenet_v1_pets.config
,然后运行该日志,例如:
INFO:tensorflow:global step 14455: loss = 0.5896 (0.775 sec/step)
I1001 19:27:43.575182 140054916601600 tf_logging.py:116] global step 14455: loss = 0.5896 (0.775 sec/step)
我怎么知道要执行多少个步骤,或者总共要执行几个步骤?
答案 0 :(得分:0)
如果您使用的是预定义的模型拓扑,则可以在模型随附的文档中查找训练周期(以时期或步骤为单位)。如果您创建了自己的模型,则可以通过观察测试结果来确定培训时间。当准确性达到可接受的水平然后开始下降时,您可能会过度训练。备份到高精度。重复此实验几次,以确定模型的“最佳点”。
答案 1 :(得分:0)