从文本文件中删除双向唯一行

时间:2016-10-29 15:50:32

标签: apache-spark duplicates graphstream

我有一个文本文件如下:

1    3
2    5
3    6
4    5
5    4
6    1
7    2

上述文件表示无向图中的边。我想删除图中的重复边。在上面给出的示例中,我想删除4,5 or 5,4,因为它们代表图中的相同边缘,因此导致重复。我正在尝试使用Apache中的Graphstream库使用GraphX从文件中可视化图形。但是由于存在重复的节点,如上所述,它给出了如下错误

org.graphstream.graph.EdgeRejectedException: Edge 4[5--4] was rejected by node 5

从文本文件中删除此类重复项的最佳方法是什么?

1 个答案:

答案 0 :(得分:1)

您可以使用convertToCanonicalEdges中的GraphOps方法。它

  • 将双向边转换为单向
  • 重写边的顶点id,使srcIds小于dstIds,并合并重复的边

在你的情况下:

val graph = Graph.fromEdgeTuples(sc.parallelize(
  Seq((1, 3), (2, 5), (3, 6), (4, 5), (5, 4), (6, 1), (7, 2))), -1)

graph.convertToCanonicalEdges().edges.collect.foreach(println)

结果:

Edge(3,6,1)
Edge(1,6,1)
Edge(1,3,1)
Edge(2,5,1)
Edge(2,7,1)
Edge(4,5,1)