如何在Spark中建模树木?

时间:2016-08-09 00:31:39

标签: scala apache-spark

我有一大堆帖子&注释,表示为边缘列表:

children_id, parent_id

这对是各种树木的边缘。

我想为每个children_id找到根帖子:

children_id, parent_id, root_id

我怎样才能有效地在Spark中做到这一点?

我的猜测是我必须使用广播变量在节点之间共享查找键。

1 个答案:

答案 0 :(得分:0)

这取决于你需要做什么。

如果需要找到根帖子ID,那么使用广播变量来共享查找似乎完全没问题。

如果您需要执行大量树(或更常见的图形处理),请查看新的graphframe API。

https://databricks.com/blog/2016/03/03/introducing-graphframes.html