工作流工具comaparison:Oozie Vs Cascading

时间:2012-07-03 18:36:40

标签: hadoop mapreduce cascading oozie

我正在寻找一个工作流工具来运行复杂的map-reduce作业。我考虑过Oozie,但也想探索Cascading。是否有使用级联API链接现有M / R作业的示例代码或示例?另外,你能提供比较Oozie Vs Cascading吗?

2 个答案:

答案 0 :(得分:7)

Cascading和Oozie属于同一类别。

Oozie是一个工作流程调度程序。

级联是用于创建工作流程的API。它与调度程序无关,即它应该与您使用的任何调度程序系统一起运行。

可能有一些混乱,因为Oozie文档提到了“DAG”,并且都在Hadoop上运行。

此外,Cascading在检查点支持中有一个“数据可用性”的概念,这在Oozie中得到了支持,尽管不同。

答案 1 :(得分:0)

我个人在某种程度上玩这两个,我发现有趣的是级联是

1)简洁,富有表现力的简单关键词,如流量,点击,管道等,

2)基于TDD的惊人的本地开发和研究方法

3)漂亮的计划者视图(.dot文件),一旦项目增长就会很有用,因此维护很容易。

4)基于DSL的方法使用groovy,scala,cloujre。因此,无需担心学习任何新语言,或者更喜欢学习hadoop。

5)简单的云部署(例如,amazon支持作为原始jar部署)。

6)你可以调用现有的猪或蜂巢或纯粹的其他MR罐,只要它们暴露java api。

7)ML和NLP相关作品令人惊叹。