过滤重复元素RDD

时间:2016-11-15 15:19:51

标签: scala apache-spark rdd

我正在使用巨大 RDD ,我想根据规则对其进行过滤。我有一个 RDD 有两个元素,我不介意因素的顺序,所以我可以过滤它以便删除那些重复对。

我的输入数据是这样的:

{{A,B},{A,C},{B,A},{B,C},{C,A},{C,B}} 

输出过滤的RDD应该是这个:

{{A,B},{A,C},{B,C}}

提前谢谢。

1 个答案:

答案 0 :(得分:1)

我将.map步骤应用于对元组中的元素进行排序的RDD。这样[(A,C),(C,A)]变成[(A,C),(A,C)]

之后,您可以执行.distinct以获取所有唯一值。