哪种开源框架最适合ETL Apache Airflow或Apache Beam?

时间:2019-07-09 11:49:59

标签: apache-spark pyspark etl airflow apache-beam

我正在尝试使用开源框架进行ETL, 我听说过Apache Beam和Apache Airflow这两件事,它们最适合整个ETL或ELT,例如Talend,Azure Data Factory等。事实上,我正在尝试使用云数据仓库(redshift,azure数据)做所有事情仓库,雪花等等),哪一种对这类工作而言是一件好事,如果我能对这两个框架进行一些比较,那就太好了。 提前致谢。

2 个答案:

答案 0 :(得分:2)

Apache Airflow不是ETL框架,它是计划和监视工作流的应用程序,它将计划和监视您的ETL管道。 Apache Beam是用于定义数据处理工作流的统一模型。

这意味着您的ETL管道将使用Apache Beam编写,而Airflow将触发并安排这些管道。

答案 1 :(得分:0)

Apache Airflow:是一种调度和监视工具。您需要编写ETL脚本(使用Python或Scala编写),然后使用Apache Airflow运行该脚本。

诸如Talend,Informatica之类的工具提供了许多丰富的UI和内置功能,在这些功能中,您可以执行简单的工作,例如将数据转储到高度复杂的转换。除了调度之外,还可以使用其自身的调度功能来完成编排等。

如果您要构建具有很多复杂性的企业级数据仓库,我建议您使用企业级ETL工具。这将为您带来可管理性,支持,调试等方面的长期利益。