Cloud Composer(Airflow)作业卡住了

时间:2018-08-15 13:25:25

标签: google-cloud-platform airflow google-cloud-composer

我的Cloud Composer管理的Airflow被困了几个小时,因为我取消了一个耗时太长的任务实例(我们称它为任务A)

我已经清除了所有DAG运行和任务实例,但是有几个正在运行的作业和一个处于“关机”状态的作业(我想是任务A的作业)(snapshot of my Jobs)。

此外,自recently deleted DAGs keep appearing in the dashboard

开始,调度程序似乎未运行

有没有办法杀死工作或重置调度程序?任何解开作曲家的想法都会受到欢迎。

2 个答案:

答案 0 :(得分:5)

您可以按以下方式重新启动调度程序:

从您的Cloud Shell:

1。确定您环境的Kubernetes集群:

gcloud composer environments describe ENVIRONMENT_NAME \
    --location LOCATION 

2。获取凭据并连接到Kubernetes集群:

gcloud container clusters get-credentials ${GKE_CLUSTER} --zone ${GKE_LOCATION}

3。运行以下命令以重新启动调度程序:

kubectl get deployment airflow-scheduler -o yaml | kubectl replace --force -f -

第1步和第2步详细介绍here。步骤3基本上用其自身替换了“气流调度器”部署,从而重新启动了服务。

如果重新启动调度程序无济于事,那么您可能还需要重新创建Composer环境并在每次发生DAG时进行故障排除。

答案 1 :(得分:0)

您正在运行哪个版本的Composer? Beta版作业可能会卡住,这是一个已知问题。 Composer 1.0.0和1.1.0应该看不到任何卡住的作业(SubDag中的任务除外,这是一个已知的Airflow错误),请考虑迁移到最新的Composer version