我有一个火花数据帧,其结构类似于下表
**col1** **col2**
A 1
B 2
A 3
B 4
C 1
A 2
我希望它在col1上分组并在col2上创建值列表。以下应该是我的输出
**col1** **list**
A [1,3,2]
B [2, 4]
C [1]
有人能指点我参考吗?
答案 0 :(得分:2)
这应该做的工作:
df.groupBy($"col1").agg( collect_list($"col2") )