如何在pyspark中合并使用foreach执行的函数的结果?

时间:2017-03-22 08:14:50

标签: foreach pyspark

我在PySpak中几乎是新手,并尝试合并在PySpak中通过 foreach 执行的函数的输出值。 这是伪代码:

files_rdd = sc.parallelize(files)
files_rdd.foreach(lambda x: training_cart(x, min_leaf=10, pruning=True))

get each CART model and dump it as pickle
Build a list/dictionary where each trained CART is inserted

其中,

def training_cart(file, min_leaf=10, pruning=True):
  read out file
  model = train classification tree
  return model 
然后,我们的想法是采用每个CART模型并将其插入到列表/字典中,以便在训练阶段之后使用,并将它们转储为独立的pickle文件,以便稍后使用。任何人都可以帮我一把手吗?

谢谢!

0 个答案:

没有答案