Spark作业-成功完成后缺少分区

时间:2019-03-10 03:12:41

标签: apache-spark hadoop object-storage

我的spark作业从swift对象存储中读取数据,对其进行处理,并将处理后的数据写入swift中的目标文件夹。但是,在我的Spark作业成功完成后,它用33000个任务处理了33000个分区,它仅从_temporary文件夹中将大约5000个分区复制到了目的地的当前目录,并突然退出。第2次或第3次尝试可能会在目标目录中创建所有分区。为什么会这样呢?甚至在目标位置上的hadoop fs -ls命令也会间歇性地显示5000个分区和所有33000个分区。我发现这种行为确实很奇怪。还有其他人面对这个问题吗?

0 个答案:

没有答案