将行分组到pyspark中的列表中

时间:2016-11-15 11:52:27

标签: group-by pyspark

我有一个火花数据帧,其结构类似于下表

 **col1** **col2**

    A       1
    B       2
    A       3
    B       4
    C       1
    A       2

我希望它在col1上分组并在col2上创建值列表。以下应该是我的输出

**col1**    **list**
   A        [1,3,2]
   B        [2, 4]
   C         [1]

有人能指点我参考吗?

1 个答案:

答案 0 :(得分:2)

这应该做的工作:

df.groupBy($"col1").agg( collect_list($"col2") )