我正在尝试使用Airflow为我的ETL作业建模。所有作业都具有相同的结构:
所以E >> T >> L
此Company Routine
用户>>产品>>订单必须每2小时运行一次。然后,我将获得来自用户和购买的所有数据。
如何建模?
Company Routine
(用户>>产品>>订单)必须是DAG,并且每个作业必须是单独的任务?在这种情况下,我该如何对任务中的每个步骤(E,T,L)建模并使其表现得像Airflow中的“子任务”?Company Routine
(USER >> PRODUCT >> ORDER),它们具有这些依赖性。因为正如我所看到的,我们只能在DAG中的任务之间设置cron时间和相关性。图:
现在,我将每个Company Routine
(用户>>产品>>订单)用作DAG,并且每个作业必须是一个单独的任务。
答案 0 :(得分:0)
第二个选项更好(将Company Routine
的每个子工作流作为顶级DAG
),因为
但是随后,您也必须将这些顶级DAG链接在一起(以便它们一个接一个地运行)。为此,请参见Wiring top-level DAGs together