groupByKey和distinct VS combineByKey

时间:2017-01-24 20:07:10

标签: apache-spark group-by distinct

我正在学习Spark并玩一些"练习"。

在某些时候,我有一个JavaPairRDD< Integer,Integer>其中包含重复项。我的目标是按键分组并删除重复项。

我看到(至少)两种可能性:

  1. 使用distinct()和groupByKey()
  2. 使用combineByKey()并确保我们只添加之前没有的元素(例如结果可能是JavaPairRDD< Integer,Set< Integer>>
  3. 我使用了第二种方法(避免使用distinct()进行随机播放)但是后来看到了原始的"解决方案"是第一个。

    您认为哪种解决方案最有效?

0 个答案:

没有答案