我正在使用巨大 RDD ,我想根据规则对其进行过滤。我有一个 RDD 有两个元素,我不介意因素的顺序,所以我可以过滤它以便删除那些重复对。
我的输入数据是这样的:
{{A,B},{A,C},{B,A},{B,C},{C,A},{C,B}}
输出过滤的RDD应该是这个:
{{A,B},{A,C},{B,C}}
提前谢谢。
答案 0 :(得分:1)
我将.map步骤应用于对元组中的元素进行排序的RDD。这样[(A,C),(C,A)]变成[(A,C),(A,C)]
之后,您可以执行.distinct以获取所有唯一值。