标签: apache-spark pyspark apache-spark-sql
所以背景是我有一个数据框,并且想使用foreachpartition对数据框执行一些并行操作:
我想收集和汇总_func的返回值。我敢打赌,累加器变量应该可以实现,但是想知道是否还有其他选择?
df.rdd.foreachPartition(_func) def _func(partition): # do some thing return count
谢谢!