虽然groupBy
apache中的数据帧会激活,然后使用聚合与数据帧中的另一列进行聚合。有任何性能问题吗? reduceBy
可以更好吗?
df.groupBy("primaryKey").agg(max("another column"))
答案 0 :(得分:1)
在groupBy中,reduce作业将按顺序执行,但在reduceByKey中,内部spark并行运行多个reduce作业,因为它知道键并且运行reduce to key。 ReduceByKey比groupBy提供更好的性能。 您可以在两者上运行聚合。