如何设置/监视大量等效的DAG

时间:2018-09-26 20:24:15

标签: airflow directed-acyclic-graphs

我是Airflow的新手,仍然在学习概念。

我试图每天监控大量网页(> 1000)。 目前,我为每个网页动态创建了一个DAG(数据获取和处理)。从功能的角度来看,这是可行的。但是,通过查看用户界面,我发现DAG的数量非常庞大,我的问题是:

  1. 这是正确的方法吗? (每个网页一个DAG)
  2. 有什么方法可以更好地概述对所有网页的监视情况吗?

由于所有DAG都是等效的,并且仅处理不同的URL,因此我认为将这些DAG组合在一起或具有共同的概述可能是可行的,或者至少是一个好主意。 例如。如果某个网页的获取或处理失败,我希望可以在UI中轻松看到它,而不必滚动许多页面来查找某个DAG。

1 个答案:

答案 0 :(得分:0)

您应该只有一个DAG,并且有多个任务。根据您提供的信息,似乎唯一改变的是URL,因此最好有一个DAG并承担许多任务。