应用错误收集

Spark foreachpartition使用函数返回值

时间：2019-11-12 17:06:54

标签： apache-spark pyspark apache-spark-sql

所以背景是我有一个数据框，并且想使用foreachpartition对数据框执行一些并行操作：

我想收集和汇总_func的返回值。我敢打赌，累加器变量应该可以实现，但是想知道是否还有其他选择？

df.rdd.foreachPartition(_func)

def _func(partition): 
   # do some thing
   return count

谢谢！

0 个答案:

没有答案