应用错误收集

groupByKey和distinct VS combineByKey

时间：2017-01-24 20:07:10

标签： apache-spark group-by distinct

我正在学习Spark并玩一些＆＃34;练习＆＃34;。

在某些时候，我有一个JavaPairRDD＆lt; Integer，Integer＆gt;其中包含重复项。我的目标是按键分组并删除重复项。

我看到（至少）两种可能性：

使用distinct（）和groupByKey（）
使用combineByKey（）并确保我们只添加之前没有的元素（例如结果可能是JavaPairRDD＆lt; Integer，Set＆lt; Integer＆gt;＆gt;

我使用了第二种方法（避免使用distinct（）进行随机播放）但是后来看到了原始的＆＃34;解决方案＆＃34;是第一个。

您认为哪种解决方案最有效？

0 个答案:

没有答案