我的Spark程序中有很多阶段

时间:2018-08-17 15:13:07

标签: apache-spark amazon-s3 apache-spark-sql spark-streaming

当我的spark程序执行时,它正在创建1000个阶段。但是,我看到推荐的只是200。最后,我有两个动作可将数据写入S3,然后再使用非持久性数据帧。现在,当我的spark程序将数据写入S3时,它仍然运行了将近30分钟。为什么会这样呢?是因为我保留了大量数据帧吗?

P.S->我正在运行程序,仅用于5条输入记录。

1 个答案:

答案 0 :(得分:0)

集群可能需要更长的时间才能将数据追加到现有数据集中,特别是所有Spark作业都已完成,但是您的命令尚未完成,这是因为驱动程序节点正在从临时作业中移动任务的输出文件目录到最终目标的一对一,这对于云存储来说很慢。尝试将配置 mapreduce.fileoutputcommitter.algorithm.version 设置为2。