AWS EMR中的Spark物理内存问题

时间:2018-07-12 22:51:45

标签: amazon-web-services apache-spark memory pyspark

我正在尝试使用AWSEMR中的默认设置执行spark作业,这意味着默认容器内存为1.4GB。对于某些表来说,它工作正常,当我们处理大容量表时,我们将遇到错误。

  

诊断:应用程序application_1527024725057_17128失败2次,原因是退出了appattempt_1527024725057_17128_000002的AM容器,退出代码为-104   有关更详细的输出,请检查应用程序跟踪页面:http://ip-10-179-106-153.us-west-2.compute.internal:8088/cluster/app/application_1527024725057_17128Then,单击指向每次尝试日志的链接。   诊断:容器[pid = 12379,containerID = container_1527024725057_17128_02_000001]运行超出了物理内存限制。当前使用情况:已使用1.4 GB物理内存中的1.4 GB;使用了3.7 GB的6.9 GB虚拟内存。杀死容器。

当数据超过1.4GB时,YARN资源管理器将终止该作业,并以失败状态执行该作业。我需要上述问题的帮助。

更改yarn-site.xml中的任何属性值(例如“内存开销和容器内存”)也无效。当您处理大量数据而不是最大集群大小时,理想的配置是什么?

1 个答案:

答案 0 :(得分:0)

调整执行程序和驱动程序的内存对我有帮助

spark-submit --deploy-mode cluster --executor-memory 4g --driver-memory 4g s3://mybucket/myscript.py