使用groupBy时spark是否会进行本地聚合?

时间:2017-06-20 13:41:58

标签: apache-spark

我知道rdd.groupByKey()将所有事情都洗牌,然后继续进行后续操作。因此,如果您需要对行进行分组并对其进行转换,groupByKey将对所有数据进行混洗,然后才进行转换。在还原变换和具有相同分组键的大量行的情况下,这是低效的,因为在具有局部减少的混洗之前,每个分区内的行数可以大大减少。 datset.groupBy()行为相同吗?

我正在使用Spark 1.6

0 个答案:

没有答案