Google Dataproc作业永远不会取消,停止或终止

时间:2015-10-14 19:13:47

标签: apache-spark google-cloud-platform google-cloud-dataproc

我已经使用Google Dataproc几周了,自从我开始以来,我遇到了取消和停止工作的问题。

似乎除了在群集设置上创建的服务器之外,必须有一些服务器,它可以跟踪和监督作业。

当我在开发控制台中点击停止时,我从来没有一个没有错误的进程实际停止。纺纱机只是保持纺纱和纺纱。

群集重启或停止不执行任何操作,即使已停止数小时。

只有当群集被完全删除时,作业才会消失...(但等待还有更多!)如果您创建一个具有相同设置的新群集,则在上一个群集的作业被删除之前删除后,旧作业将在新群集上启动!!!

我已经看到由于OOM错误而自行终止的作业在群集重启后重新启动! (没有编码我这方面的这种容错)

如何强制停止Dataproc作业? (gcloud beta dataproc jobs kill不起作用)

有谁知道这些看似相关的问题是怎么回事?

是否有一种特殊方法可以关闭Spark作业以避免这些问题?

1 个答案:

答案 0 :(得分:1)

工作继续投放

在某些情况下,尚未成功向Cloud Dataproc服务报告错误。因此,如果作业失败,即使它(可能)在后端失败,它似乎也会永远运行。这应该会在接下来的1-2周内由即将发布的Dataproc版本修复。

重新启动后作业

这是无意的,也是不受欢迎的。我们试图复制这个问题而不能。如果有人能够可靠地复制这个,我们想知道我们可以解决它!这可能(可证明地)与上面的问题相关,即上升后,作业失败但似乎正在运行。

关闭的最佳方式

理想情况下,关闭Cloud Dataproc群集的最佳方法是终止群集并启动新群集。如果这会有问题,您可以尝试批量重启计算引擎VM;但是,创建一个新集群要容易得多。