有没有人报告他们能够在公司扩大Airflow的规模?我正在考虑实施Airflow来执行5,000多个任务,每个任务每小时运行一次,有朝一日可以扩展到20,000多个任务。在检查调度程序时,由于只有一个实例可以运行,因此这似乎是一个瓶颈,而且我担心调度程序要跟上很多任务。我应该是吗?
答案 0 :(得分:6)
我们每天在公司中执行数千个任务,并且在过去两年的大部分时间里一直在使用Airflow。这些中断每15分钟运行一次,并通过可随时更改的配置文件生成(从用户界面中获取)。
简短的回答-是的,它肯定可以扩展到这一点,具体取决于您的基础结构。 1.10的一些新功能应该比我们运行所有这些任务的1.8版本更容易。我们在大型Mesos / DCOS上运行此程序,并进行了大量的微调以使其达到稳定点。
答案很长-尽管可以扩展,但我们发现更好的解决方案是 多个Airflow实例 ,这些配置具有不同的配置(调度程序设置,工作人员数量等)针对它们正在运行的类型优化。运行长时间运行的机器学习作业的一组DAG应该承载在与运行5分钟的ETL作业的实例不同的Airflow实例上。这也使不同的团队更容易维护他们所负责的工作,并且更容易迭代所需的任何微调。