如何每天自动创建数千个任务

时间:2019-04-13 13:59:27

标签: python airflow airflow-scheduler

我们想使用Apache Airflow来安排Scrapy Python Spiders和其他一些脚本。 我们将有成千上万的蜘蛛,而且它们的调度每天都可能有所不同,因此我们希望能够每天从数据库自动创建Airflow dag并将它们全部调度一次。我看到的唯一的气流示例使用python脚本编写DAG文件。

创建dag文件和自动调度的最佳方法是什么?

编辑: 我设法使用YAML文件找到了一个可行的解决方案 https://codeascraft.com/2018/11/14/boundary-layer%E2%80%89-declarative-airflow-workflows/

1 个答案:

答案 0 :(得分:1)

气流可以用于数千个动态任务,但不能。气流DAG应该相当稳定。例如,您仍然可以使用Airflow来处理全部数据,并在以后的ETL流程中使用此信息。

大量动态任务可能导致DAG运行如下:

enter image description here

这会在GUI和日志文件中导致很多垃圾信息。


但是,如果您真的只想使用Airflow,则可以阅读this文章(关于动态DAG生成)和this文章(关于DAG内部的动态任务生成)。