Pyspark:合并数据框列

时间:2016-06-15 23:57:38

标签: python apache-spark pyspark spark-dataframe

我有一个如下所示的数据框。我想合并列表,如果他们至少有一个相同的值。可以使用任何组件编号。例如, [1,2] [1,4,9] 具有 1 作为公共值。所以两者都会合并到 [1,2,4,9] 。现在 [1,2] 的组件编号 80 [1,4,9] 的组件编号 30 。对于 [1,2,4,9] ,可以将其中任何一个作为组件编号。在下面给出的示例中,我考虑过 30

有可能使用dataframe或rdd操作来避免尽可能多的迭代吗?感谢。

1 个答案:

答案 0 :(得分:0)

您正在尝试解决连接的组件问题。我来看看GraphFrames docs