python - 在pyspark中并行化，具有多个参数

我是火花的初学者。我试图并行化数百万个单一函数的执行：

def evaluate_discriminant(ratios, healthy, default, data_provider):
...

保持健康，默认和data_provider常量，我正在写

f = lambda p: evaluate_discriminant(p, healthy, default, data_provider)
ratios_sets = [ ['r0'], ['r1'], ['r0', 'r1']]
ratios_RDD = sc.parallelize(ratios_sets)
results = ratios_RDD.map(f)
results.collect()

但在收集中我收到错误TypeError：＆＃39; Collection＆＃39;对象不可调用。如果你想打电话给＆＃39; getnewargs ＆＃39;关于收集的方法＆＃39;对象失败，因为不存在这样的方法。

任何提示？

在pyspark中并行化，具有多个参数

0 个答案: