标签: python dataframe pyspark
我有一个带有ID,地址等作为列的pyspark数据帧,并且我一直在尝试寻找一种将具有相同ID的行聚合为一行的方法。例如,如果 row1 = (id:1, address: 123A), row2 = (id:1, address:123B),合并结果为 row = (id:1, address:[123A, 123B])
row1 = (id:1, address: 123A), row2 = (id:1, address:123B)
row = (id:1, address:[123A, 123B])
我尝试将数据帧转换为rdd,然后使用groupBy,但是它似乎没有我想要的功能。还是根本没有内置函数,我必须编写一个for循环?