Spark foreachpartition使用函数返回值

时间:2019-11-12 17:06:54

标签: apache-spark pyspark apache-spark-sql

所以背景是我有一个数据框,并且想使用foreachpartition对数据框执行一些并行操作:

我想收集和汇总_func的返回值。我敢打赌,累加器变量应该可以实现,但是想知道是否还有其他选择?

df.rdd.foreachPartition(_func)

def _func(partition): 
   # do some thing
   return count

谢谢!

0 个答案:

没有答案