我的作业中有遗传算法和Spark随机森林
而且,我想计算出Spark Random Forest的准确度,使其适合通用航空中的每个人。
所以,在计算个人健康状况时,我用python编写:
for i in range(popsize):
.....
# sc :SparkContext chrom[i]: gene in GA
fitness[i] = cal_obj_value(sc,chrom[i])
...
def cal_obj_value(sc,chrom):
...
# load data
data =MLUtils.loadLibSVMFile(sc,'sample_libsvm_data.txt')
...
因此,将相同的数据多次加载到RDD
我应该如何优化此代码。
如果我尝试“ data.cache”,有什么用吗?
是否在下一个“ for循环”中加载“ data.cache”
我正在网上搜索很长时间。但是没用。 请提供帮助或尝试提供一些实现方法的建议。