如何在for循环中重用RDD?

时间:2018-11-01 02:16:31

标签: algorithm pyspark rdd genetic

我的作业中有遗传算法和Spark随机森林

而且,我想计算出Spark Random Forest的准确度,使其适合通用航空中的每个人。

所以,在计算个人健康状况时,我用python编写:

for i in range(popsize):
      .....
     # sc :SparkContext   chrom[i]: gene in GA
     fitness[i] = cal_obj_value(sc,chrom[i])
     ...

def cal_obj_value(sc,chrom):
   ...
   # load data 
   data =MLUtils.loadLibSVMFile(sc,'sample_libsvm_data.txt')
   ...

因此,将相同的数据多次加载到RDD

我应该如何优化此代码。

如果我尝试“ data.cache”,有什么用吗?

是否在下一个“ for循环”中加载“ data.cache”


我正在网上搜索很长时间。但是没用。 请提供帮助或尝试提供一些实现方法的建议。

0 个答案:

没有答案