Question

我正在尝试在EMR上运行spark作业，该作业假定读取16gb数据并将最旧的10m记录另存为S3中的json文件。有时，工作会在4分钟内成功结束，但大多数情况下，工作只是挂起而从未结束。

我相信我的spark提交配置不好，我不太确定如何正确设置它们，这是我尝试过的组合之一：

spark-submit 
--master yarn 
--deploy-mode client 
--conf spark.hadoop.fs.s3a.impl=org.apache.hadoop.fs.s3a.S3AFileSystem --conf spark.hadoop.fs.s3a.endpoint=s3.amazonaws.com 
--conf spark.hadoop.fs.s3a.connection.maximum=1500 
--conf spark.hadoop.fs.s3a.multipart.purge=false 
--conf spark.hadoop.fs.s3a.fast.upload=true 
--conf spark.hadoop.fs.s3a.fast.upload.buffer=disk 
--conf spark.hadoop.mapred.output.compress=true 
--conf spark.yarn.executor.memoryOverhead=1g 
--conf spark.hadoop.mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec 
--conf spark.hadoop.mapred.output.compression.type=BLOCK 
--conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2 
--conf spark.driver.maxResultSize=32g 
--conf spark.driver.memory=32g 
--conf spark.executor.memory=4g 
--conf spark.executor.instances=64 
--conf spark.executor.cores=4

，EMR配置为：

1个主节点c5.18xlarge，72个vCore，144个GiB内存，仅EBS存储，EBS存储：1000 GiB

8个核心节点c5.18xlarge，72个vCore，144个GiB内存，仅EBS存储，EBS存储：1000 GiB

我看到的一些错误是

Container exited with a non-zero exit code 137

在其他情况下（例如，当尝试使用部署模式群集时）我看到了许多

19/04/14 14:28:39 INFO Client: Application report for application_1555248573853_0002 (state: RUNNING)

什么也没发生。.

有什么建议吗？

EMR上的Spark作业挂起并且永无休止

0 个答案: