如何在EMR集群中运行/安装oozie

时间:2014-03-12 04:57:37

标签: amazon-web-services elastic-map-reduce oozie emr

我想协调我的EMR工作。所以我认为oozie会很合适。我在oozie工作流程上做了一些POC,但是在本地模式下,它非常简单和棒棒。

但我不明白如何在EMR集群上使用oozie。 基于一些搜索,我知道aws并没有附带oozie所以我们已经明确地将它安装为引导动作。 大多数人都指向这个链接 https://github.com/lila/emr-oozie-sample

但由于我是aws(EMR)的新手,我仍然对如何使用它感到困惑。 这将是伟大的,如果有人可以简化它为我提供一些步骤或东西。

由于

5 个答案:

答案 0 :(得分:2)

我有一些问题,我发布到AWS技术支持,我收到了以下回复。我试过了,Oozie全部安装完毕,无需额外的努力。

为了在EMR群集上安装Oozie,您需要安装Hue。原因是目前Oozie on EMR被安装为Hue的依赖项。根据{{​​3}},AMI 3.3.0和3.3.1支持Hue。启动具有Hue的EMR群集后 - > http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/ami-versions-supported.html已安装,您应该能够立即使用Oozie,因为它已经配置并启动。

答案 1 :(得分:1)

EMR 4.x和5.x系列版本现在附带Oozie作为可选应用程序。最近还有一篇关于AWS大数据博客的博客文章,其中概述了如何开始使用它:

https://blogs.aws.amazon.com/bigdata/post/TxZ4KDBGBMZYJL/Use-Apache-Oozie-Workflows-to-Automate-Apache-Spark-Jobs-and-more-on-Amazon-EMR

答案 2 :(得分:0)

那个github项目也安装了Oozie,所以你不需要处理它。 Oozie安装的配置位于下一个链接:

https://github.com/lila/emr-oozie-sample/blob/master/config/config-oozie.sh

之后,您可以从命令shell执行一些任务: 创建: SSH: sshproxy: socksproxy:

因此,如果您按照他的指示操作,您只需要运行其中一些任务,以便使用Oozie创建和执行EMR任务。

答案 3 :(得分:0)

对于那些感兴趣的人,我克隆了回购并更新了Oozie安装程序脚本以支持Hadoop 2.4.0和Oozie 4.0.1

https://github.com/davideanastasia/emr-oozie-sample

答案 4 :(得分:0)

首先,这不是这个问题的直接答案。

EMR与数据管道集成 - 亚马逊自己的调度程序和数据工作流程协调器。亚马逊希望您将数据管道与EMR结合使用。它可以创建,启动和终止EMR集群,管理集群生命周期等。评估它是否更符合您的需求..