建议用于构建基于hadoop的数据管道的调度工具

时间:2016-03-01 21:03:20

标签: hadoop amazon-redshift oozie luigi airflow

在Apache Oozie,Spotify/Luigiairbnb/airflow之间,每个人的利弊是什么?

我过去曾使用oozie和airflow来使用PIG和Hive构建数据提取管道。目前,我正在构建一个查看日志并提取有用事件并将其置于红移的管道。

我发现气流更容易使用/测试/设置。它具有更酷的UI,并允许用户从UI本身执行操作,而Oozie则不然。任何有关Luigi的信息或其他有关稳定性和问题的见解都是受欢迎的。

2 个答案:

答案 0 :(得分:3)

  • Azkaban:非常好的UI,相对简单,非程序员可以访问。 LinkedIn上有悠久的历史。
  • Airflow:体面的UI,Python-ish作业定义,非程序员半可访问,依赖声明语法很奇怪。
  • Luigi:好用户界面,工作流程是纯Python,需要扎实掌握Python编码和面向对象的概念,因此不适合非程序员。
  • Oozie:疯狂的基于XML的作业定义。这里是龙。 ; - )
恕我直言,阿兹卡班强制执行简单(不能使用不存在的功能),其他人巧妙地鼓励复杂性。

更简单的管道比复杂的管道更好:更易于创建,更易于理解(特别是在您不创建时)并且更易于调试/修复。

当需要复杂操作时,您希望以完全成功或完全失败的方式封装它们。

如果你能使它成为幂等的(再次运行会产生相同的结果),那就更好了。

答案 1 :(得分:1)

这篇文章将为您提供有关不同可能的工作流程的初步想法

http://bytepawn.com/luigi-airflow-pinball.html