Question

我有一个火花数据帧，其结构类似于下表

 **col1** **col2**

    A       1
    B       2
    A       3
    B       4
    C       1
    A       2

我希望它在col1上分组并在col2上创建值列表。以下应该是我的输出

**col1**    **list**
   A        [1,3,2]
   B        [2, 4]
   C         [1]

有人能指点我参考吗？

Answer 1

这应该做的工作：

df.groupBy($"col1").agg( collect_list($"col2") )