groupByKey vs重新分区表现

时间:2017-08-31 19:15:40

标签: apache-spark spark-dataframe

我做的时候

df.groupByKey("<column>").mapGroups((key,value) => myfunction(value))

vs

df.repartition("<column>").mapPartitions(...)

想知道在大型DataFrames上应用哪个效率更高?我所知道的是两者都会导致混乱,但重新分区将确保与分区列相关的数据始终在一个工作节点上。如果我错了,请纠正我。

0 个答案:

没有答案