Pyspark:选择属于同一分区的所有值

时间:2018-08-07 05:42:02

标签: pyspark-sql

我有这样的csv

ab,1,q     
cd,3,e    
cd,4,r
ab,2,w    

我想要类似

ab,1,q,2,w
cd,3,e,4,r

在pyspark中有没有办法做到这一点,我所能想到的就是一个神奇的方法,可以按第一列对数据集进行分区,然后以某种方式将所有值写入一行:)。我的数据集很大,所以我不能使用python循环作为这会花很多时间

0 个答案:

没有答案