我看到,Airflow中的许多运营商在将数据上传到目标系统之前将数据存储在本地。这意味着工作节点正在进行大量工作,以防数据量巨大。
Airbnb(开源Airflow公司)称,在2015年,Airflow集群中只有6个节点可以提供5000个工作岗位。我在这里遗漏了什么吗?
请帮助理解。
答案 0 :(得分:3)
Apache Airflow的主要目的是任务调度和监控。它不是作为通用数据处理引擎设计的。而不是Apache Spark或Apache Hive,而是替代Oozie。
虽然Airflow可以对工作人员进行扩展(使用Mesos,RabbitMQ / Celery),但仍然可以通过分析系统进行繁重的工作。因此,例如Airflow可以管理您的Spark作业和Druid查询,处理更改等。