AI Platform恢复检查点在估算器train_and_evaluate中不起作用

时间:2019-06-11 23:01:11

标签: python tensorflow google-cloud-ml

我正在使用AI平台使用Estimator API训练Tensorflow模型。但是,当模型保存检查点并尝试还原检查点时,它将引发错误tensorflow.python.framework.errors_impl.NotFoundError: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://path/keras/keras_model.ckpt

在Tensorflow中恢复元数据图似乎是一个问题,Tensorflow是会话设置(TensorFlow, why there are 3 files after saving the model?)中使用的代码。但是,由于AI平台将其从我的配置中抽象出来,我该如何解决我的问题?

1 个答案:

答案 0 :(得分:0)

没关系,似乎在每次新作业运行开始时,都不会删除前一次运行的作业目录(有意使我可以同时训练多名工人)。如果先前的运行失败,则某些检查点无法正确存储,这会导致AI平台出现问题。