groupByKey是否会导致整个网络中所有值的混乱,即使它们已经位于分区内,当我们按照sparkSQL中的操作进行分组时,它是否使用groupbykey还是使用aggregateByKey来提高性能?
答案 0 :(得分:0)
groupByKey
不会对数据进行随机播放。但那是一种罕见的情况。
groupBy
中的{p> sparkSQL
操作是aggregateByKey
,这使其成为聚合操作。我们可以在groupBy
中的sparkSQL
之后定义聚合函数。 groupBy
只需为每个组和每个聚合创建一个Aggregation Expressions
实例,然后浏览数据并不断更新这些表达式