我在使用LocalExecutor的4 CPU机器上运行Airflow
我已将上游任务定义为一次成功
create_spark_cluster_task = BashOperator(
task_id='create_spark_cluster',
trigger_rule='one_success',
bash_command= ...,
dag=dag)
...
download_bag_data_task >> create_spark_cluster_task
download_google_places_data_task >> create_spark_cluster_task
download_facebook_places_details_data_task >> create_spark_cluster_task
download_facebook_places_details_data_task_2 >> create_spark_cluster_task
download_facebook_places_details_data_task_3 >> create_spark_cluster_task
download_factual_data_task >> create_spark_cluster_task
download_dataoutlet_data_task >> create_spark_cluster_task
但即使有些明确标记为成功,任务也不会触发
'下载任务'确实并行运行,因此不能成为问题
检查任务显示:
依赖关系:未知
原因:满足所有依赖关系,但任务 实例未运行。在大多数情况下,这只是意味着任务 可能会很快安排,除非: - 调度程序已关闭或负载过重 - 此任务实例已经运行并且手动更改了状态(例如在UI中清除)
我看过负载,确实很高:
平均负载:2.45,3.55,3.71 CPU为50-60%
但其他任务已经完成,所以应该有资源可以自由启动另一项任务,对吗?