我的Cloud Composer
管理的Airflow
被困了几个小时,因为我取消了一个耗时太长的任务实例(我们称它为任务A)
我已经清除了所有DAG运行和任务实例,但是有几个正在运行的作业和一个处于“关机”状态的作业(我想是任务A的作业)(snapshot of my Jobs)。
此外,自recently deleted DAGs keep appearing in the dashboard
开始,调度程序似乎未运行有没有办法杀死工作或重置调度程序?任何解开作曲家的想法都会受到欢迎。
答案 0 :(得分:5)
您可以按以下方式重新启动调度程序:
从您的Cloud Shell:
1。确定您环境的Kubernetes集群:
gcloud composer environments describe ENVIRONMENT_NAME \
--location LOCATION
2。获取凭据并连接到Kubernetes集群:
gcloud container clusters get-credentials ${GKE_CLUSTER} --zone ${GKE_LOCATION}
3。运行以下命令以重新启动调度程序:
kubectl get deployment airflow-scheduler -o yaml | kubectl replace --force -f -
第1步和第2步详细介绍here。步骤3基本上用其自身替换了“气流调度器”部署,从而重新启动了服务。
如果重新启动调度程序无济于事,那么您可能还需要重新创建Composer环境并在每次发生DAG时进行故障排除。
答案 1 :(得分:0)
您正在运行哪个版本的Composer? Beta版作业可能会卡住,这是一个已知问题。 Composer 1.0.0和1.1.0应该看不到任何卡住的作业(SubDag中的任务除外,这是一个已知的Airflow错误),请考虑迁移到最新的Composer version。