我们应该在dataframe或reduceBy

时间:2018-03-27 05:38:31

标签: apache-spark group-by spark-dataframe

虽然groupBy apache中的数据帧会激活,然后使用聚合与数据帧中的另一列进行聚合。有任何性能问题吗? reduceBy可以更好吗?

df.groupBy("primaryKey").agg(max("another column"))

1 个答案:

答案 0 :(得分:1)

在groupBy中,reduce作业将按顺序执行,但在reduceByKey中,内部spark并行运行多个reduce作业,因为它知道键并且运行reduce to key。 ReduceByKey比groupBy提供更好的性能。 您可以在两者上运行聚合。