使用Airflow进行批处理,以根据父任务的输出动态启动多个任务

时间:2018-02-01 02:10:56

标签: airflow airflow-scheduler

我试图弄清楚Airflow是否可用于表示需要根据父任务的输出启动同一任务的多个实例的工作流程。 Airflow支持多个工作人员,因此我天真地期望Airflow可用于协调涉及批处理的工作流程。到目前为止,我没有找到适合此模型的任何配方/方向。什么是利用Airflow进行浴室处理工作流程的正确方法,如下所示?假设有一个Airflow工作人员。

工作流程示例: 1.启动任务A以生成多个文件 2.对于每个文件,启动任务B的实例(可能是另一个工作流) 3.等待任务B的所有实例,然后启动任务C

1 个答案:

答案 0 :(得分:0)

作为一种在Airflow中并行处理输入数据的技巧,我使用了一个自定义运算符,该运算符将输入分为预定数量的分区。下游运算符将为每个分区复制,并且如果需要,结果可以再次合并。对于本地文件,操作员运行split命令。在Kubernetes中,这可以很好地与集群自动缩放配合使用。