标签: apache-spark yarn emr
我们(工程团队)正在使用EMR和YARN运行Spark群集。通常发生的情况是,当一个用户提交大量内存密集型作业时,它会抓取所有YARN可用内存,然后所有后续用户提交的作业必须等待该内存清除(我知道autoscaling将解决这个问题在一定程度上我们正在研究这个问题,但我们希望避免单个用户占用所有内存,即使集群autoscale达到它的全部限制。)
EMR
YARN
Spark
autoscaling
autoscale
有没有办法配置YARN,以便任何应用程序(Spark或其他)可能不占用超过75%的可用内存?
由于
答案 0 :(得分:0)
根据documentation,您可以使用以下参数管理分配给执行程序的内存量:spark.executor.memory