我有一个作为Web服务运行的应用程序,它根据用户请求将作业提交给Spark。每个用户需要限制作业队列。我计划使用Airflow作为业务流程框架来管理作业队列,但是虽然它支持并行DAG执行,但它针对批处理而不是实时进行了优化。 Airflow是否设计为每秒处理大约200个DAG执行并具有多个队列(每个用户一个)或者我应该寻找替代方案吗?
答案 0 :(得分:2)
您是否有数据从一个任务移动到另一个任务?自从你提到实时以来,时间在这里是否重要使用Airflow,工作流程预计大部分是静态的或缓慢变化的。主要用于ETL批处理,您可以加快气流心跳速度,但最好有一个POC与您的用例进行测试。
以下来自Airflow官方文件:https://airflow.apache.org/#beyond-the-horizon
Airflow不是数据流解决方案。任务不会移动数据 一个到另一个(虽然任务可以交换元数据!)。气流不是 在Spark Streaming或Storm领域,它与Oozie更具可比性 或阿兹卡班