限制Spark应用程序获取YARN集群中的所有资源

时间:2016-12-20 22:11:31

标签: apache-spark yarn emr

我们(工程团队)正在使用EMRYARN运行Spark群集。通常发生的情况是,当一个用户提交大量内存密集型作业时,它会抓取所有YARN可用内存,然后所有后续用户提交的作业必须等待该内存清除(我知道autoscaling将解决这个问题在一定程度上我们正在研究这个问题,但我们希望避免单个用户占用所有内存,即使集群autoscale达到它的全部限制。)

有没有办法配置YARN,以便任何应用程序(Spark或其他)可能不占用超过75%的可用内存?

由于

1 个答案:

答案 0 :(得分:0)

根据documentation,您可以使用以下参数管理分配给执行程序的内存量:spark.executor.memory