标签: tensorflow tensorboard checkpoint
我编写指标以每10步进行总结,并编写每50步对检查点的发布。现在,我们说培训在步骤80中崩溃了,我想使用最新的检查点来恢复并继续进行培训。除了下图中显示的摘要,其他所有操作都进行顺利。 顺便说一句,我使用了MonitoredTrainingSession。
Q1:如何强制第一个事件文件拖到与最新检查点相同的步骤(步骤50),以使步骤重叠。 问题2:有什么更好的主意来防止这种情况的发生或更好的解决方案?
谢谢。