要恢复,我想将相关的组值放入相关的组:
这就是我所拥有的:
col1 col2
1 2
1 3
2 3
4 5
5 6
我想要这个:
col1 col2 group
1 2 1
1 3 1
2 3 1
4 5 2
5 6 2
如果我手动完成这两个组的生成步骤。
您是否有想在SQL中解决此问题的方法。 知道我正在使用Hive或pyspark
答案 0 :(得分:1)
根据A.R.Ferguson的回答,我能够使用pyspark和graphframe找出解决方案:
from graphframes import *
vertices = sqlContext.createDataFrame([
("A", 1),
("B", 2),
("C", 3),
("D", 4),
("E", 5),
("F", 6)], ["name", "id"])
edges = sqlContext.createDataFrame([
(1, 2),
(1, 3),
(2, 3),
(4, 5),
(5, 6)], ["src", "dst"])
g = GraphFrame(vertices, edges)
result = g.connectedComponents()
result.show()
再次感谢弗格森。