Spark中ReduceByKey和CombineByKey之间的区别

时间:2017-03-06 18:14:11

标签: scala apache-spark

在Spark中的性能方面,ReduceByKey和CombineByKey之间是否有任何区别?对此有任何帮助表示赞赏。

1 个答案:

答案 0 :(得分:5)

通过键内部调用combineBykey减少。因此,任务执行的基本方式对于两者都是相同的。

CombineByKey over reduceBykey的选择是输入类型和输出类型预计不相同的时候。因此,combineByKey将有一个额外的开销,即将一种类型转换为另一种类型。

如果省略类型转换,则完全没有区别。

请按照以下链接

  

http://bytepadding.com/big-data/spark/reducebykey-vs-combinebykey

     

http://bytepadding.com/big-data/spark/groupby-vs-reducebykey

     

http://bytepadding.com/big-data/spark/combine-by-key-to-find-max