反复在Spark RDD上应用运算符

时间:2018-02-22 16:42:37

标签: apache-spark rdd

假设我们已经在RDD0中存储了数据集。我有一个map和reduce函数可以反复应用于RDD0。像这样:

RDD0.cache
do{
   Val RDD1 =  RDD0.flatmap().reducebykey()
   RDD0=RDD1
   update "terminate condition"
}while("terminate condition" is false )  

似乎这段代码会在磁盘上创建大量的shuffle文件。这可能是由于创建了很多临时变量RDD1引起的。但是,我不确定。

有任何改进建议吗?代码在scala中。

0 个答案:

没有答案