我对Amazon Elastic MapReduce完全不熟悉。我需要使用我的自定义调度程序(基于Hadoop容量调度程序实现)来安排我在Amazon Elastic MapReduce中的作业。
根据我目前的理解,为了实现这一点,我只能在作业流程中定义一个阶段,并通过SSH连接将我的自定义jar文件提交到主节点。但是,我找不到如何编辑xml配置文件,如主节点中的capacity-scheduler.xml。谁知道怎么做?
此外,如果我想在其上添加动态大小调整属性,那么当作业当前正在运行时,我是否可以动态调整群集中的任务节点数量?或者在每个阶段,群集的大小应该保持不变?非常感谢你。
答案 0 :(得分:0)
您应该使用引导操作来更改Hadoop配置。
可以为Hadoop配置引导操作引用以下AWS文档 http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-bootstrap.html#PredefinedbootstrapActions_ConfigureHadoop
这个我收藏的博客文章也有一些信息。 http://sujee.net/tech/articles/hadoop/amazon-emr-beyond-basics/
要动态更改群集大小,可以使用AWS SDK http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/calling-emr-with-java-sdk.html
使用以下界面可以修改实例组的实例计数。 http://docs.aws.amazon.com/AWSJavaSDK/latest/javadoc/com/amazonaws/services/elasticmapreduce/AmazonElasticMapReduce.html