我是Airflow的新手,仍然在学习概念。
我试图每天监控大量网页(> 1000)。 目前,我为每个网页动态创建了一个DAG(数据获取和处理)。从功能的角度来看,这是可行的。但是,通过查看用户界面,我发现DAG的数量非常庞大,我的问题是:
由于所有DAG都是等效的,并且仅处理不同的URL,因此我认为将这些DAG组合在一起或具有共同的概述可能是可行的,或者至少是一个好主意。 例如。如果某个网页的获取或处理失败,我希望可以在UI中轻松看到它,而不必滚动许多页面来查找某个DAG。
答案 0 :(得分:0)
您应该只有一个DAG,并且有多个任务。根据您提供的信息,似乎唯一改变的是URL,因此最好有一个DAG并承担许多任务。