Python长期并行优先DAG

时间:2018-12-11 17:42:23

标签: python airflow directed-acyclic-graphs

我正在寻找解决以下问题的正确工具:

我的数据需要进行大量处理,其中每个步骤可能会创建本身需要处理的中间数据。一些处理比其他处理更重要;例如,某些进程会创建大量(读取:难处理)的低优先级任务,并且可以在系统空闲时执行这些任务。直观上,可以将其建模为优先级DAG。

我正在寻找一个python软件包/技术/解决方案来开始实施此系统。我已经咨询了Python awesome pipeline list,并仔细研究了airflow,但是我开始认为这行不通,因为Airflow似乎认为DAG运行是短暂的,并且我将有很多,可能无法完成多个DAG运行中的许多低优先级任务。

重要性不高的小问题:这些DAG运行会有所不同,因为它们会随着向系统提交更多数据而增长,因此,我想出的任何解决方案都必须能够基于AAG动态生成DAG /任务模板。

气流会起作用吗?我应该看看别的东西吗?感谢您的帮助。

edit:一个关于资源管理的词-如果可能的话,在整个所有计划的DAG运行中拥有可配置的工作池(线程,进程,机器等)来处理优先级任务最佳。

0 个答案:

没有答案