标签: apache-spark
我知道rdd.groupByKey()将所有事情都洗牌,然后继续进行后续操作。因此,如果您需要对行进行分组并对其进行转换,groupByKey将对所有数据进行混洗,然后才进行转换。在还原变换和具有相同分组键的大量行的情况下,这是低效的,因为在具有局部减少的混洗之前,每个分区内的行数可以大大减少。 datset.groupBy()行为相同吗?
rdd.groupByKey()
groupByKey
datset.groupBy()
我正在使用Spark 1.6