EMR上的Spark作业挂起并且永无休止

时间:2019-04-15 07:21:18

标签: apache-spark pyspark amazon-emr spark-submit

我正在尝试在EMR上运行spark作业,该作业假定读取16gb数据并将最旧的10m记录另存为S3中的json文件。 有时,工作会在4分钟内成功结束,但大多数情况下,工作只是挂起而从未结束。

我相信我的spark提交配置不好,我不太确定如何正确设置它们,这是我尝试过的组合之一:

spark-submit 
--master yarn 
--deploy-mode client 
--conf spark.hadoop.fs.s3a.impl=org.apache.hadoop.fs.s3a.S3AFileSystem --conf spark.hadoop.fs.s3a.endpoint=s3.amazonaws.com 
--conf spark.hadoop.fs.s3a.connection.maximum=1500 
--conf spark.hadoop.fs.s3a.multipart.purge=false 
--conf spark.hadoop.fs.s3a.fast.upload=true 
--conf spark.hadoop.fs.s3a.fast.upload.buffer=disk 
--conf spark.hadoop.mapred.output.compress=true 
--conf spark.yarn.executor.memoryOverhead=1g 
--conf spark.hadoop.mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec 
--conf spark.hadoop.mapred.output.compression.type=BLOCK 
--conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2 
--conf spark.driver.maxResultSize=32g 
--conf spark.driver.memory=32g 
--conf spark.executor.memory=4g 
--conf spark.executor.instances=64 
--conf spark.executor.cores=4

,EMR配置为:

1个主节点c5.18xlarge,72个vCore,144个GiB内存,仅EBS存储,EBS存储:1000 GiB

8个核心节点c5.18xlarge,72个vCore,144个GiB内存,仅EBS存储,EBS存储:1000 GiB

我看到的一些错误是

Container exited with a non-zero exit code 137

在其他情况下(例如,当尝试使用部署模式群集时)我看到了许多

19/04/14 14:28:39 INFO Client: Application report for application_1555248573853_0002 (state: RUNNING)

什么也没发生。.

有什么建议吗?

0 个答案:

没有答案