为什么ml-engine多次重启我的工作?

时间:2018-01-31 07:35:42

标签: google-cloud-ml

我开始使用GCP ml-engine训练神经网络。当我通过tensorboard检查特定工作时,它显示了下面的损失图(绘制时间与墙面时间): loss plotted vs wall time

检查堆栈驱动程序中的日志以查找发生“加注”的时间段,我发现以下内容: screenshot from stack-driver log

在我看来,这项工作已重新初始化。原因我完全不清楚。任何解释/帮助将不胜感激!

其他信息:我观察到此行为的特定工作与其他工作并行运行。其他工作按预期终止。作业之间的唯一区别是神经网络中的隐藏层数为2,而其他作业为1和4。

1 个答案:

答案 0 :(得分:0)

如果您使用的是Estimators API,TensorFlow正在执行的操作如下:

  1. 打开一个会话(tf.Session()),加载训练和检查点的图表(如果有的话)并训练X步骤。
  2. 保存检查点和tensorboard的摘要。
  3. 关闭会话
  4. 打开会话,加载图表以进行评估并评估评估集
  5. 保存tensorboard的摘要。
  6. 关闭会话
  7. 重复1-6,直到符合停止标准。
  8. 这就是为什么你会看到这种重新初始化。