我有以下格式的pyspark数据框。
id date location value
10 20190503 lot1 val_1
20 20190503 lot1 Val_1
30 20190501 lot2 val_2
10 20190503 lot1 val_2
30 20190501 lot2 val_3
20 20190503 lot1 val_0
10 20190501 lot2 val_4
12 20190501 lot1 val_5
10 20190501 lot1 val_2
10 20190501 lot1 val_3
20 20190506 lot1 val_4
30 20190506 lot2 val_0
12 20190501 lot3 val_2
15 20190503 lot4 val_3
12 20190503 lot1 val_8
15 20190503 lot4 Val_6
10 20190501 lot7 val_7
我想获取一个按id
,date
和location
分组的数据框。 value
列应包含每个分组行的值列表。
如何在pyspark中做到这一点?
id date location value_list
10 20190503 lot1 val_1,val_2, val_3
10 20190501 lot2 val_2, val_7
10 20190501 lot7 val_7
20 20190503 lot1 val_1, val_0
20 20190506 lot1 val_4
30 20190501 lot2 val_2, val_3
30 20190506 lot2 val_0
12 20190501 lot1 val_5
12 20190501 lot3 val_2
12 20190503 lot1 val_8
15 20190503 lot4 val_3, val_6