应用错误收集

我在一个庞大的数据集（~500GB）上有一系列操作，包括重新分区，一些转换，最后保存到磁盘作为文本文件。管道看起来像这样。

sc.textFile("").persist(StorageLevel.DISK_ONLY).repartition(1000).filter { ""}.map { "" }.mapPartitions("").saveAsTextFile("")

根据火花引擎，管道分两个阶段运行，首先它重新分配数据进行大量改组，这完全正常，但是，一旦下一阶段执行，它就会继续执行，我已经尝试了各种配置以增加ack时间等，但似乎没有任何工作。

此外，在第二阶段，它也无法找到随机索引文件并再次重新启动这两个阶段。

任何帮助都会非常感激。