应用错误收集

我的spark作业从swift对象存储中读取数据，对其进行处理，并将处理后的数据写入swift中的目标文件夹。但是，在我的Spark作业成功完成后，它用33000个任务处理了33000个分区，它仅从_temporary文件夹中将大约5000个分区复制到了目的地的当前目录，并突然退出。第2次或第3次尝试可能会在目标目录中创建所有分区。为什么会这样呢？甚至在目标位置上的hadoop fs -ls命令也会间歇性地显示5000个分区和所有33000个分区。我发现这种行为确实很奇怪。还有其他人面对这个问题吗？

Spark作业-成功完成后缺少分区

0 个答案: