标签: apache-spark spark-dataframe
我做的时候
df.groupByKey("<column>").mapGroups((key,value) => myfunction(value)) vs df.repartition("<column>").mapPartitions(...)
想知道在大型DataFrames上应用哪个效率更高?我所知道的是两者都会导致混乱,但重新分区将确保与分区列相关的数据始终在一个工作节点上。如果我错了,请纠正我。
DataFrames