我试图并行运行几个EMR步骤。 我在SO上看到了关于这个问题的其他问题,以及Google搜索选项。 所以我尝试过的事情:
这对我来说没有用,纱线被正确地创建了所有队列,并且提交在不同的队列上进行。但EMR仍然只是一步完成(一步是运行其余的PENDING)
我也从其中一个答案中看到,步骤意味着顺序,但你可以在一步中放入几个工作。我没有设法找到这样做的方法,根据用户界面,没有选择。
我没有尝试直接向纱线群集提交作业Submit Hadoop Jobs Interactively,我想从AWS API提交作业,我还没有找到一种方法从API
这是我对CapacityScheduler CapacityScheduler
的配置这是步骤配置StepsConfiguration
答案 0 :(得分:1)
可能会迟到,但希望这会有所帮助。
Spark提供了一个选项,用于指定调用者(步骤)在提交后是否等待Spark应用程序完成。您可以将此值设置为false
,然后AWS emr步骤将提交并立即返回。
spark.yarn.submit.waitAppCompletion: "false"