Question

我有一个Gcloud ML引擎培训工作，通常可以在ML Engine上很好地工作，但是最近我注意到VM似乎在随机重启。这会导致它失去所有进度（我的代码没有做任何聪明的事情，例如重新加载缓存的检查点），因此增加了此操作的成本，并花费了更长的时间。 gcloud日志中给出的唯一消息是：

被服务终止。如果该作业应该继续运行，它将   将很快在其他VM上重新启动。

模块已完成；清理。

清理完成。

[服务]当前尝试发生内部错误。

我不清楚“内部错误”是指导致VM崩溃的问题还是清除尝试。

这种情况现在已经发生过多次。我同时运行两个作业，所以这可能是资源问题吗？我能做些什么使这种事情减少发生吗？

我正在与Keras一起训练。

GPU配置文件如下：

trainingInput:
  scaleTier: CUSTOM
  masterType: standard_gpu
  runtimeVersion: "1.13"

Answer 1

该问题与您同时运行多少个作业无关。日志由服务终止。如果该作业应该继续运行，它将很快在其他VM上重新启动。表示运行您的工作的VM因软件或硬件更新的Google Compute Engine维护事件而中断。如果发生这些事件，则ML Engine将自动在另一个VM中重试您的作业。您似乎取消了工作，因此重试从未发生。如果您再次遇到类似问题，请不要取消该作业，而是稍后再检查。
如有任何疑问，请告诉我们。

Answer 2

将其中一个作业切换到其他区域，对我来说，这已经停止了，现在就可以了。如果证明是一致的，则将其标记为答案，除非真正的解释得以实现。

Google ML作业被随机终止并无故重启

2 个答案: