我一直在使用张量流与tf.train.Supervisor
-
sv = tf.train.Supervisor(logdir=path, save_model_secs=900)
with sv.managed_session() as sess:
if not sv.should_stop():
#Rest of the code
最近,它在训练期间崩溃,从那以后它一直在with sv.managed_session()
线上方抛出以下错误 -
DataLossError(参见上面的回溯):校验和不匹配:存储1057608875与已恢复字节计算的对比763056116
[[节点:save / RestoreV2_31 = RestoreV2 [dtypes = [DT_FLOAT],_ device =“/ job:localhost / replica:0 / task:0 / cpu:0”](_ recv_save / Const_0,save / RestoreV2_31 / tensor_names ,save / RestoreV2_31 / shape_and_slices)]]
是否可以修复它?
答案 0 :(得分:4)
这意味着您的检查点文件已损坏。删除最新版本(即具有最大global_step
号码的版本)并重试,它应该可以正常工作。