答案 0 :(得分:0)
一些事情:
RDD.saveAsTextFile将从每个工作者写入磁盘,您需要做的就是确保您拥有正确数量的分区(您可能想要将分区数设置为可用于工作者的核心数量在集群中)例如:
val files = sc.textFile("file:...")
val prt = files.repartition(5)
prt.saveAsTextFile("file:...")
另外你应该注意RDD.mapPartition对分区中的所有元素执行map操作,map是一个转换,这意味着它需要转换数据并且是懒惰的。