Question

我正在使用巨大 RDD ，我想根据规则对其进行过滤。我有一个 RDD 有两个元素，我不介意因素的顺序，所以我可以过滤它以便删除那些重复对。

我的输入数据是这样的：

{{A,B},{A,C},{B,A},{B,C},{C,A},{C,B}}

输出过滤的RDD应该是这个：

{{A,B},{A,C},{B,C}}

提前谢谢。

Answer 1

我将.map步骤应用于对元组中的元素进行排序的RDD。这样[（A，C），（C，A）]变成[（A，C），（A，C）]

之后，您可以执行.distinct以获取所有唯一值。