Spark Lost Executor和Shuffle Index未找到问题

时间:2015-08-12 19:47:24

标签: scala apache-spark apache-spark-sql

我在一个庞大的数据集(~500GB)上有一系列操作,包括重新分区,一些转换,最后保存到磁盘作为文本文件。管道看起来像这样。

sc.textFile("").persist(StorageLevel.DISK_ONLY).repartition(1000).filter { ""}.map { "" }.mapPartitions("").saveAsTextFile("")

根据火花引擎,管道分两个阶段运行,首先它重新分配数据进行大量改组,这完全正常,但是,一旦下一阶段执行,它就会继续执行,我已经尝试了各种配置以增加ack时间等,但似乎没有任何工作。

此外,在第二阶段,它也无法找到随机索引文件并再次重新启动这两个阶段。

任何帮助都会非常感激。

0 个答案:

没有答案