我有一个Gcloud ML引擎培训工作,通常可以在ML Engine上很好地工作,但是最近我注意到VM似乎在随机重启。这会导致它失去所有进度(我的代码没有做任何聪明的事情,例如重新加载缓存的检查点),因此增加了此操作的成本,并花费了更长的时间。 gcloud日志中给出的唯一消息是:
被服务终止。如果该作业应该继续运行,它将 将很快在其他VM上重新启动。
模块已完成;清理。
清理完成。
[服务]当前尝试发生内部错误。
我不清楚“内部错误”是指导致VM崩溃的问题还是清除尝试。
这种情况现在已经发生过多次。我同时运行两个作业,所以这可能是资源问题吗?我能做些什么使这种事情减少发生吗?
我正在与Keras一起训练。
GPU配置文件如下:
trainingInput:
scaleTier: CUSTOM
masterType: standard_gpu
runtimeVersion: "1.13"
答案 0 :(得分:0)
该问题与您同时运行多少个作业无关。日志由服务终止。如果该作业应该继续运行,它将很快在其他VM上重新启动。表示运行您的工作的VM因软件或硬件更新的Google Compute Engine维护事件而中断。如果发生这些事件,则ML Engine将自动在另一个VM中重试您的作业。
您似乎取消了工作,因此重试从未发生。
如果您再次遇到类似问题,请不要取消该作业,而是稍后再检查。
如有任何疑问,请告诉我们。
答案 1 :(得分:0)
将其中一个作业切换到其他区域,对我来说,这已经停止了,现在就可以了。如果证明是一致的,则将其标记为答案,除非真正的解释得以实现。