我想协调我的EMR工作。所以我认为oozie会很合适。我在oozie工作流程上做了一些POC,但是在本地模式下,它非常简单和棒棒。
但我不明白如何在EMR集群上使用oozie。 基于一些搜索,我知道aws并没有附带oozie所以我们已经明确地将它安装为引导动作。 大多数人都指向这个链接 https://github.com/lila/emr-oozie-sample
但由于我是aws(EMR)的新手,我仍然对如何使用它感到困惑。 这将是伟大的,如果有人可以简化它为我提供一些步骤或东西。
由于
答案 0 :(得分:2)
我有一些问题,我发布到AWS技术支持,我收到了以下回复。我试过了,Oozie全部安装完毕,无需额外的努力。
为了在EMR群集上安装Oozie,您需要安装Hue。原因是目前Oozie on EMR被安装为Hue的依赖项。根据{{3}},AMI 3.3.0和3.3.1支持Hue。启动具有Hue的EMR群集后 - > http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/ami-versions-supported.html已安装,您应该能够立即使用Oozie,因为它已经配置并启动。
答案 1 :(得分:1)
EMR 4.x和5.x系列版本现在附带Oozie作为可选应用程序。最近还有一篇关于AWS大数据博客的博客文章,其中概述了如何开始使用它:
答案 2 :(得分:0)
那个github项目也安装了Oozie,所以你不需要处理它。 Oozie安装的配置位于下一个链接:
https://github.com/lila/emr-oozie-sample/blob/master/config/config-oozie.sh
之后,您可以从命令shell执行一些任务: 创建: SSH: sshproxy: socksproxy:
因此,如果您按照他的指示操作,您只需要运行其中一些任务,以便使用Oozie创建和执行EMR任务。
答案 3 :(得分:0)
对于那些感兴趣的人,我克隆了回购并更新了Oozie安装程序脚本以支持Hadoop 2.4.0和Oozie 4.0.1
答案 4 :(得分:0)
首先,这不是这个问题的直接答案。
EMR与数据管道集成 - 亚马逊自己的调度程序和数据工作流程协调器。亚马逊希望您将数据管道与EMR结合使用。它可以创建,启动和终止EMR集群,管理集群生命周期等。评估它是否更符合您的需求..