EMR:无法并行执行步骤

时间:2018-06-07 06:34:08

标签: apache-spark yarn emr

我试图并行运行几个EMR步骤。 我在SO上看到了关于这个问题的其他问题,以及Google搜索选项。 所以我尝试过的事情:

  • 使用一组队列配置CapacityScheduler
  • 配置FairScheduler
  • 尝试将AWS数据管道与PARALLEL_FAIR_SCHEDULING,PARALLEL_CAPACITY_SCHEDULING
  • 一起使用

这对我来说没有用,纱线被正确地创建了所有队列,并且提交在不同的队列上进行。但EMR仍然只是一步完成(一步是运行其余的PENDING)

我也从其中一个答案中看到,步骤意味着顺序,但你可以在一步中放入几个工作。我没有设法找到这样做的方法,根据用户界面,没有选择。

我没有尝试直接向纱线群集提交作业Submit Hadoop Jobs Interactively,我想从AWS API提交作业,我还没有找到一种方法从API

这是我对CapacityScheduler CapacityScheduler

的配置

这是步骤配置StepsConfiguration

1 个答案:

答案 0 :(得分:1)

可能会迟到,但希望这会有所帮助。

Spark提供了一个选项,用于指定调用者(步骤)在提交后是否等待Spark应用程序完成。您可以将此值设置为false,然后AWS emr步骤将提交并立即返回。

spark.yarn.submit.waitAppCompletion: "false"