我使用EMR创建新实例并处理作业,然后关闭实例。
我的要求是定期安排工作。其中一个简单的实现方法是使用quartz来触发EMR作业。但从长远来看,我有兴趣使用开箱即用的mapreduce调度解决方案。我的问题是,是否有EMR或AWS-SDK提供的开箱即用调度功能,我可以根据我的要求使用?我可以看到自动缩放中有调度,但我想安排EMR作业流程。
答案 0 :(得分:1)
只有Apache Oozie Workflow Scheduler for Hadoop才能做到这一点。
Oozie是一个用于管理Apache Hadoop作业的工作流程调度程序系统。
Oozie Workflow作业是行动的定向非循环图(DAG)。
Oozie Coordinator工作是由周期性的Oozie Workflow工作引发的 时间(频率)和数据可用性。
Oozie与Hadoop堆栈支持的其余部分集成在一起 几种类型的Hadoop作业开箱即用(例如Java map-reduce, Streaming map-reduce,Pig,Hive,Sqoop和Distcp)以及系统 特定的工作(例如Java程序和shell脚本)。
Oozie是一个可扩展,可靠且可扩展的系统。
以下是用于配置apache oozie的弹性映射Reduce引导操作的简单示例:https://github.com/lila/emr-oozie-sample
但是为了让你知道oozie有点复杂,当且仅当你有很多工作需要安排/监控/维护时,只有你会去oozie
或者只是创建一堆{ {1}}如果您只是要定期安排2到3个工作岗位,那就可以找到工作。
您也可以查看并探索simple workflow from Amazon。