Apache AirFlow如何实现可扩展性?

时间:2017-04-16 02:46:47

标签: apache-spark hive airflow airbnb apache-airflow

我看到,Airflow中的许多运营商在将数据上传到目标系统之前将数据存储在本地。这意味着工作节点正在进行大量工作,以防数据量巨大。

Airbnb(开源Airflow公司)称,在2015年,Airflow集群中只有6个节点可以提供5000个工作岗位。

我在这里遗漏了什么吗?

请帮助理解。

1 个答案:

答案 0 :(得分:3)

Apache Airflow的主要目的是任务调度和监控。它不是作为通用数据处理引擎设计的。而不是Apache Spark或Apache Hive,而是替代Oozie。

虽然Airflow可以对工作人员进行扩展(使用Mesos,RabbitMQ / Celery),但仍然可以通过分析系统进行繁重的工作。因此,例如Airflow可以管理您的Spark作业和Druid查询,处理更改等。