在pyspark中并行化,具有多个参数

时间:2016-02-19 13:37:21

标签: python apache-spark pyspark rdd

我是火花的初学者。我试图并行化数百万个单一函数的执行:

def evaluate_discriminant(ratios, healthy, default, data_provider):
...

保持健康,默认和data_provider常量,我正在写

f = lambda p: evaluate_discriminant(p, healthy, default, data_provider)
ratios_sets = [ ['r0'], ['r1'], ['r0', 'r1']]
ratios_RDD = sc.parallelize(ratios_sets)
results = ratios_RDD.map(f)
results.collect()

但在收集中我收到错误TypeError:' Collection'对象不可调用。如果你想打电话给' getnewargs '关于收集的方法'对象失败,因为不存在这样的方法。

任何提示?

0 个答案:

没有答案