有没有一种方法可以在pyspark数据框中聚合具有相同列值的行?

时间:2019-07-23 17:07:45

标签: python dataframe pyspark

我有一个带有ID,地址等作为列的pyspark数据帧,并且我一直在尝试寻找一种将具有相同ID的行聚合为一行的方法。例如,如果     row1 = (id:1, address: 123A), row2 = (id:1, address:123B),合并结果为     row = (id:1, address:[123A, 123B])

我尝试将数据帧转换为rdd,然后使用groupBy,但是它似乎没有我想要的功能。还是根本没有内置函数,我必须编写一个for循环?

0 个答案:

没有答案