标签: pyspark-sql
我有这样的csv
ab,1,q cd,3,e cd,4,r ab,2,w
我想要类似
ab,1,q,2,w cd,3,e,4,r
在pyspark中有没有办法做到这一点,我所能想到的就是一个神奇的方法,可以按第一列对数据集进行分区,然后以某种方式将所有值写入一行:)。我的数据集很大,所以我不能使用python循环作为这会花很多时间