AWS Glue上的PySpark:将输出写入CSV时的容器退出代码52

时间:2019-01-22 20:48:58

标签: apache-spark pyspark aws-glue amazon-sagemaker

我是Spark / PySpark的新手,我正尝试使用PySpark为生产ML模型自动化(在AWS上)ETL过程,该过程需要一系列Bucketizer-OneHotEncoding-Vectorization步骤,然后再保存特征向量输出到CSV。作业一直运行到我将最终转换后的数据帧保存到s3存储桶(没有合并/收集)的位置,然后退出代码52失败。

我知道退出代码52是一个OOM错误,因此我尝试使用以下方法更改每个分区的内存分配:

  

sqlContext.setConf('spark.sql.files.maxPartitionBytes',100000000)

这不能解决问题,并且我仍然得到相同的退出代码:

  

由以下原因引起:org.apache.spark.SparkException:由于阶段失败而导致作业中止:阶段3314.0中的任务82失败了4次,最近的失败:阶段3314.0中的任务82.3丢失(TID 822445,ip-172-32- 95-151.ec2.internal,执行程序478):ExecutorLostFailure(执行程序478退出是由于正在运行的任务之一)原因:容器标记为失败:主机上的container_1548172659463_0001_01_098577:ip-172-32-95-151.ec2.internal。退出状态:52。诊断:容器启动异常。   容器编号:container_1548172659463_0001_01_098577   退出代码:52   堆栈跟踪:ExitCodeException exitCode = 52:

0 个答案:

没有答案