Spark数据集上的GroupbyKey

时间:2017-06-08 14:23:50

标签: apache-spark sparkcore

groupByKey是否会导致整个网络中所有值的混乱,即使它们已经位于分区内,当我们按照sparkSQL中的操作进行分组时,它是否使用groupbykey还是使用aggregateByKey来提高性能?

1 个答案:

答案 0 :(得分:0)

如果密钥全部位于每个分区内,则

groupByKey不会对数据进行随机播放。但那是一种罕见的情况。

groupBy中的{p> sparkSQL操作是aggregateByKey,这使其成为聚合操作。我们可以在groupBy中的sparkSQL之后定义聚合函数。 groupBy只需为每个组和每个聚合创建一个Aggregation Expressions实例,然后浏览数据并不断更新这些表达式