Question

虽然groupBy apache中的数据帧会激活，然后使用聚合与数据帧中的另一列进行聚合。有任何性能问题吗？ reduceBy可以更好吗？

df.groupBy("primaryKey").agg(max("another column"))

Answer 1

在groupBy中，reduce作业将按顺序执行，但在reduceByKey中，内部spark并行运行多个reduce作业，因为它知道键并且运行reduce to key。 ReduceByKey比groupBy提供更好的性能。您可以在两者上运行聚合。