GraphX - 从路径

时间:2016-05-24 15:09:24

标签: apache-spark graph-databases spark-graphx

在GraphX中,有没有办法检索路径上具有一定长度的所有节点和边?

更具体地说,我想获得从A到B的所有10步路径。 对于每个路径,我想获得节点和边的列表。

感谢。

1 个答案:

答案 0 :(得分:3)

免责声明:这仅用于展示GraphFrames路径过滤功能。

嗯,从理论上讲,这是可能的。您可以使用GraphFrames模式查找路径。让我们假设您的数据如下所示:

import org.graphframes.GraphFrame

val nodes = "abcdefghij".map(c =>Tuple1(c.toString)).toDF("id")

val edges = Seq(
   // Long path
  ("a", "b"), ("b", "c"), ("c", "d"),  ("d", "e"), ("e", "f"),
  // and some random nodes
  ("g", "h"), ("i", "j"), ("j", "i")
).toDF("src", "dst")

val gf = GraphFrame(nodes, edges)

并且您希望找到至少包含5个节点的所有路径。

您可以构建以下路径模式:

val path = (1 to 4).map(i => s"(n$i)-[e$i]->(n${i + 1})").mkString(";")
// (n1)-[e1]->(n2);(n2)-[e2]->(n3);(n3)-[e3]->(n4);(n4)-[e4]->(n5)

并过滤表达式以避免循环:

val expr = (1 to 5).map(i => s"n$i").combinations(2).map {
  case Seq(i, j) => col(i) !== col(j)
}.reduce(_ && _)

最后快速检查:

gf.find(path).where(expr).show
// +-----+---+---+-----+---+-----+---+-----+---+
// |   e1| n1| n2|   e2| n3|   e3| n4|   e4| n5|
// +-----+---+---+-----+---+-----+---+-----+---+
// |[a,b]|[a]|[b]|[b,c]|[c]|[c,d]|[d]|[d,e]|[e]|
// |[b,c]|[b]|[c]|[c,d]|[d]|[d,e]|[e]|[e,f]|[f]|
// +-----+---+---+-----+---+-----+---+-----+---+