Apache气流,TimeDeltaSensor延迟DAG中的所有任务

时间:2019-12-12 03:09:28

标签: airflow

enter image description here

我有一个指定的气流冲击,如上图所示。 git_pull_datagenerator_batch_2应该被TimeDeltaSensor wait_an_hour延迟。

但是,任务git_pull_datagenerator似乎也被延迟,尽管它不依赖于wait_an_hour。 (整个活动计划在2019-12-10T20:00:00进行,但是git_pull_datagenerator的启动时间要晚一小时)

我检查了所有气流文件,但找不到任何线索。

2 个答案:

答案 0 :(得分:0)

我假设您的计划间隔是每小时?如果DAG运行时间为2019-12-10T20:00:00,且间隔为@hourly,则预计在第20小时“完成”时,将在2019-12-10T21:00:00或之后不久运行。我认为这与传感器无关。

这是common Airflow pitfall

  

气流被开发为满足ETL需求的解决方案。在ETL世界中,   您通常会汇总数据。所以,如果我想总结数据   2016年2月19日,我会在格林尼治标准时间2016年2月20日这样做,   立即获得2016-02-19的所有数据。

如果这是正在发生的情况,则wait_an_hour2019-12-10T21:00:00开始,而git_pull_datagenerator_batch_22019-12-10T22:00:00开始。

答案 1 :(得分:0)

事实证明,默认执行程序是SequentialExecutor,它使所有任务以线性顺序运行。