标签: apache-spark group-by distinct
我正在学习Spark并玩一些"练习"。
在某些时候,我有一个JavaPairRDD< Integer,Integer>其中包含重复项。我的目标是按键分组并删除重复项。
我看到(至少)两种可能性:
我使用了第二种方法(避免使用distinct()进行随机播放)但是后来看到了原始的"解决方案"是第一个。
您认为哪种解决方案最有效?