安排亚马逊Elastic MapReduce工作的工具/方式

时间:2012-12-23 20:30:52

标签: mapreduce hadoop-streaming elastic-map-reduce emr

我使用EMR创建新实例并处理作业,然后关闭实例。

我的要求是定期安排工作。其中一个简单的实现方法是使用quartz来触发EMR作业。但从长远来看,我有兴趣使用开箱即用的mapreduce调度解决方案。我的问题是,是否有EMR或AWS-SDK提供的开箱即用调度功能,我可以根据我的要求使用?我可以看到自动缩放中有调度,但我想安排EMR作业流程。

1 个答案:

答案 0 :(得分:1)

只有Apache Oozie Workflow Scheduler for Hadoop才能做到这一点。

  

Oozie是一个用于管理Apache Hadoop作业的工作流程调度程序系统。

     

Oozie Workflow作业是行动的定向非循环图(DAG)。

     

Oozie Coordinator工作是由周期性的Oozie Workflow工作引发的   时间(频率)和数据可用性。

     

Oozie与Hadoop堆栈支持的其余部分集成在一起   几种类型的Hadoop作业开箱即用(例如Java map-reduce,   Streaming map-reduce,Pig,Hive,Sqoop和Distcp)以及系统   特定的工作(例如Java程序和shell脚本)。

     

Oozie是一个可扩展,可靠且可扩展的系统。

以下是用于配置apache oozie的弹性映射Reduce引导操作的简单示例:https://github.com/lila/emr-oozie-sample

但是为了让你知道oozie有点复杂,当且仅当你有很多工作需要安排/监控/维护时,只有你会去oozie或者只是创建一堆{ {1}}如果您只是要定期安排2到3个工作岗位,那就可以找到工作。

您也可以查看并探索simple workflow from Amazon