如何对多列键pyspark数据框的值进行分组

时间:2019-05-21 12:57:55

标签: pyspark

我有以下格式的pyspark数据框。

id  date        location    value
10  20190503    lot1        val_1
20  20190503    lot1        Val_1
30  20190501    lot2        val_2
10  20190503    lot1        val_2
30  20190501    lot2        val_3
20  20190503    lot1        val_0
10  20190501    lot2        val_4
12  20190501    lot1        val_5
10  20190501    lot1        val_2
10  20190501    lot1        val_3
20  20190506    lot1        val_4
30  20190506    lot2        val_0
12  20190501    lot3        val_2
15  20190503    lot4        val_3
12  20190503    lot1        val_8
15  20190503    lot4        Val_6
10  20190501    lot7        val_7

我想获取一个按iddatelocation分组的数据框。 value列应包含每个分组行的值列表。 如何在pyspark中做到这一点?

id  date        location    value_list
10  20190503    lot1        val_1,val_2, val_3
10  20190501    lot2        val_2, val_7
10  20190501    lot7        val_7
20  20190503    lot1        val_1, val_0
20  20190506    lot1        val_4
30  20190501    lot2        val_2, val_3
30  20190506    lot2        val_0
12  20190501    lot1        val_5
12  20190501    lot3        val_2
12  20190503    lot1        val_8
15  20190503    lot4        val_3, val_6

0 个答案:

没有答案