Google ML作业被随机终止并无故重启

时间:2019-06-19 00:54:31

标签: keras gcloud google-cloud-ml

我有一个Gcloud ML引擎培训工作,通常可以在ML Engine上很好地工作,但是最近我注意到VM似乎在随机重启。这会导致它失去所有进度(我的代码没有做任何聪明的事情,例如重新加载缓存的检查点),因此增加了此操作的成本,并花费了更长的时间。 gcloud日志中给出的唯一消息是:

  

被服务终止。如果该作业应该继续运行,它将   将很快在其他VM上重新启动。

     

模块已完成;清理。

     

清理完成。

     

[服务]当前尝试发生内部错误。

我不清楚“内部错误”是指导致VM崩溃的问题还是清除尝试。

这种情况现在已经发生过多次。我同时运行两个作业,所以这可能是资源问题吗?我能做些什么使这种事情减少发生吗?

我正在与Keras一起训练。

GPU配置文件如下:

trainingInput:
  scaleTier: CUSTOM
  masterType: standard_gpu
  runtimeVersion: "1.13"

2 个答案:

答案 0 :(得分:0)

该问题与您同时运行多少个作业无关。日志由服务终止。如果该作业应该继续运行,它将很快在其他VM上重新启动。表示运行您的工作的VM因软件或硬件更新的Google Compute Engine维护事件而中断。如果发生这些事件,则ML Engine将自动在另一个VM中重试您的作业。 您似乎取消了工作,因此重试从未发生。 如果您再次遇到类似问题,请不要取消该作业,而是稍后再检查。
如有任何疑问,请告诉我们。

答案 1 :(得分:0)

将其中一个作业切换到其他区域,对我来说,这已经停止了,现在就可以了。如果证明是一致的,则将其标记为答案,除非真正的解释得以实现。