运行PySpark作业足够长时间后,我遇到“任务租约已过期”的错误;然后我尝试重新提交作业,它给出“未获取任务”,并且日志字段为空。
我应该如何诊断这个问题?
1个主节点:n1-standard-4(4个vCPU,15 GB内存)
4个工作节点:n1-standard-1(1个vCPU,3.75 GB内存)
修改
群集在GCP控制台上看起来很健康,但它不会再“获取”任何作业。我必须重新创建新的集群来运行相同的工作,到目前为止似乎还不错。
答案 0 :(得分:0)
这太旧了。我的答案是:
在YARN UI中而不是使用GCP控制台检查群集的运行状况。应该出现错误,例如没有工人。
如果YARN UI正常并且您通过gcloud提交了作业,则GCP中的某些内部进程可能会丢失,因此您可以尝试首先重新启动。如前所述,如果它不能帮助重新创建,则为该选项。