我在PySpak中几乎是新手,并尝试合并在PySpak中通过 foreach 执行的函数的输出值。 这是伪代码:
files_rdd = sc.parallelize(files)
files_rdd.foreach(lambda x: training_cart(x, min_leaf=10, pruning=True))
get each CART model and dump it as pickle
Build a list/dictionary where each trained CART is inserted
其中,
def training_cart(file, min_leaf=10, pruning=True):
read out file
model = train classification tree
return model
然后,我们的想法是采用每个CART模型并将其插入到列表/字典中,以便在训练阶段之后使用,并将它们转储为独立的pickle文件,以便稍后使用。任何人都可以帮我一把手吗?
谢谢!