我开始使用GCP ml-engine训练神经网络。当我通过tensorboard检查特定工作时,它显示了下面的损失图(绘制时间与墙面时间):
检查堆栈驱动程序中的日志以查找发生“加注”的时间段,我发现以下内容:
在我看来,这项工作已重新初始化。原因我完全不清楚。任何解释/帮助将不胜感激!
其他信息:我观察到此行为的特定工作与其他工作并行运行。其他工作按预期终止。作业之间的唯一区别是神经网络中的隐藏层数为2,而其他作业为1和4。
答案 0 :(得分:0)
如果您使用的是Estimators API,TensorFlow正在执行的操作如下:
tf.Session()
),加载训练和检查点的图表(如果有的话)并训练X步骤。这就是为什么你会看到这种重新初始化。