我在一个庞大的数据集(~500GB)上有一系列操作,包括重新分区,一些转换,最后保存到磁盘作为文本文件。管道看起来像这样。
sc.textFile("").persist(StorageLevel.DISK_ONLY).repartition(1000).filter { ""}.map { "" }.mapPartitions("").saveAsTextFile("")
根据火花引擎,管道分两个阶段运行,首先它重新分配数据进行大量改组,这完全正常,但是,一旦下一阶段执行,它就会继续执行,我已经尝试了各种配置以增加ack时间等,但似乎没有任何工作。
此外,在第二阶段,它也无法找到随机索引文件并再次重新启动这两个阶段。
任何帮助都会非常感激。