我有一大堆帖子&注释,表示为边缘列表:
children_id, parent_id
这对是各种树木的边缘。
我想为每个children_id找到根帖子:
children_id, parent_id, root_id
我怎样才能有效地在Spark中做到这一点?
我的猜测是我必须使用广播变量在节点之间共享查找键。
答案 0 :(得分:0)
这取决于你需要做什么。
如果只需要找到根帖子ID,那么使用广播变量来共享查找似乎完全没问题。
如果您需要执行大量树(或更常见的图形处理),请查看新的graphframe API。
https://databricks.com/blog/2016/03/03/introducing-graphframes.html