应用错误收集

限制Spark应用程序获取YARN集群中的所有资源

时间：2016-12-20 22:11:31

标签： apache-spark yarn emr

我们（工程团队）正在使用EMR和YARN运行Spark群集。通常发生的情况是，当一个用户提交大量内存密集型作业时，它会抓取所有YARN可用内存，然后所有后续用户提交的作业必须等待该内存清除（我知道autoscaling将解决这个问题在一定程度上我们正在研究这个问题，但我们希望避免单个用户占用所有内存，即使集群autoscale达到它的全部限制。）

有没有办法配置YARN，以便任何应用程序（Spark或其他）可能不占用超过75％的可用内存？

由于

1 个答案:

答案 0 :(得分：0)

根据documentation，您可以使用以下参数管理分配给执行程序的内存量：spark.executor.memory

使用Apache Spark中的所有资源和Yarn
Spark不使用Yarn Cluster Resources
Spark驱动器在纱线集群上占用全部资源
如何在Yarn下限制Hadoop集群中资源的动态自我分配？
如何在集群模式下向YARN提交Spark应用程序？
限制Spark应用程序获取YARN集群中的所有资源
SparkContext停止了应用程序在纱线群集模式下运行
纱线比集群显示的资源更多
使用YARN群集模式在NAT后面的Spark应用程序
是否需要在集群的所有节点上安装spark

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？