apache-spark - AWS Glue上的PySpark：将输出写入CSV时的容器退出代码52

我是Spark / PySpark的新手，我正尝试使用PySpark为生产ML模型自动化（在AWS上）ETL过程，该过程需要一系列Bucketizer-OneHotEncoding-Vectorization步骤，然后再保存特征向量输出到CSV。作业一直运行到我将最终转换后的数据帧保存到s3存储桶（没有合并/收集）的位置，然后退出代码52失败。

我知道退出代码52是一个OOM错误，因此我尝试使用以下方法更改每个分区的内存分配：

sqlContext.setConf（'spark.sql.files.maxPartitionBytes'，100000000）

这不能解决问题，并且我仍然得到相同的退出代码：

由以下原因引起：org.apache.spark.SparkException：由于阶段失败而导致作业中止：阶段3314.0中的任务82失败了4次，最近的失败：阶段3314.0中的任务82.3丢失（TID 822445，ip-172-32- 95-151.ec2.internal，执行程序478）：ExecutorLostFailure（执行程序478退出是由于正在运行的任务之一）原因：容器标记为失败：主机上的container_1548172659463_0001_01_098577：ip-172-32-95-151.ec2.internal。退出状态：52。诊断：容器启动异常。容器编号：container_1548172659463_0001_01_098577 退出代码：52 堆栈跟踪：ExitCodeException exitCode = 52：

AWS Glue上的PySpark：将输出写入CSV时的容器退出代码52

0 个答案: