在创建了一个包含2个工作节点的集群后,我更改了初始化脚本。然后我稍微更改了脚本并尝试用另外2个工作节点更新集群。该脚本失败,因为我在apt-get update
之前忘记了apt-get install
,因此dataproc报告错误并且群集的状态更改为ERROR。当我尝试再次将大小缩减回2个节点时,它不再适用于以下消息
ERROR: (gcloud.dataproc.clusters.update) Cluster 'cluster-1' must be running before it can be updated, current cluster state is 'ERROR'.
仍然添加了两个工作节点,但是最初运行的spark应用程序似乎没有检测到它们,因为不再添加执行程序。我在Google Compute Engine页面上手动重置了两个实例,然后添加了4个执行程序。所以似乎一切都恢复正常,除了集群的状态仍然是ERROR,我不能再增加或减少工作节点的数量。
如何将群集状态更新恢复正常(RUNNING)?
答案 0 :(得分:0)
在您的情况下,ERROR表示重新配置群集的工作流失败,Dataproc不确定其运行状况。此时,Dataproc无法保证另一次重新配置尝试将成功,因此不允许进一步更新。但是你可以提交工作。
最好的办法是删除它并重新开始。