我正在尝试在EMR上运行spark作业,该作业假定读取16gb数据并将最旧的10m记录另存为S3中的json文件。 有时,工作会在4分钟内成功结束,但大多数情况下,工作只是挂起而从未结束。
我相信我的spark提交配置不好,我不太确定如何正确设置它们,这是我尝试过的组合之一:
spark-submit
--master yarn
--deploy-mode client
--conf spark.hadoop.fs.s3a.impl=org.apache.hadoop.fs.s3a.S3AFileSystem --conf spark.hadoop.fs.s3a.endpoint=s3.amazonaws.com
--conf spark.hadoop.fs.s3a.connection.maximum=1500
--conf spark.hadoop.fs.s3a.multipart.purge=false
--conf spark.hadoop.fs.s3a.fast.upload=true
--conf spark.hadoop.fs.s3a.fast.upload.buffer=disk
--conf spark.hadoop.mapred.output.compress=true
--conf spark.yarn.executor.memoryOverhead=1g
--conf spark.hadoop.mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec
--conf spark.hadoop.mapred.output.compression.type=BLOCK
--conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2
--conf spark.driver.maxResultSize=32g
--conf spark.driver.memory=32g
--conf spark.executor.memory=4g
--conf spark.executor.instances=64
--conf spark.executor.cores=4
,EMR配置为:
1个主节点c5.18xlarge,72个vCore,144个GiB内存,仅EBS存储,EBS存储:1000 GiB
8个核心节点c5.18xlarge,72个vCore,144个GiB内存,仅EBS存储,EBS存储:1000 GiB
我看到的一些错误是
Container exited with a non-zero exit code 137
在其他情况下(例如,当尝试使用部署模式群集时)我看到了许多
19/04/14 14:28:39 INFO Client: Application report for application_1555248573853_0002 (state: RUNNING)
什么也没发生。.
有什么建议吗?