应用错误收集

groupByKey vs重新分区表现

时间：2017-08-31 19:15:40

标签： apache-spark spark-dataframe

我做的时候

df.groupByKey("<column>").mapGroups((key,value) => myfunction(value))

vs

df.repartition("<column>").mapPartitions(...)

想知道在大型DataFrames上应用哪个效率更高？我所知道的是两者都会导致混乱，但重新分区将确保与分区列相关的数据始终在一个工作节点上。如果我错了，请纠正我。

0 个答案:

没有答案