在Spark中的性能方面,ReduceByKey和CombineByKey之间是否有任何区别?对此有任何帮助表示赞赏。
答案 0 :(得分:5)
通过键内部调用combineBykey减少。因此,任务执行的基本方式对于两者都是相同的。
CombineByKey over reduceBykey的选择是输入类型和输出类型预计不相同的时候。因此,combineByKey将有一个额外的开销,即将一种类型转换为另一种类型。
如果省略类型转换,则完全没有区别。
请按照以下链接
http://bytepadding.com/big-data/spark/reducebykey-vs-combinebykey
http://bytepadding.com/big-data/spark/groupby-vs-reducebykey
http://bytepadding.com/big-data/spark/combine-by-key-to-find-max