Python Pyspark-分组并求和一些数据

时间:2019-09-23 19:05:48

标签: sorting group-by pyspark sum

我有一些看起来像

的数据
||Name || Week ||Spend ||    
||Jon || 4 || $20 ||    
||Jon || 2 || $10 ||    
||Jon || 1 || $20 ||    
||Jon || 10 || $10 ||    
||Linda|| 2 || $20 ||    
||Tran|| 3 || $10 ||    
||Tran|| 5 || $20 ||    
||Tran|| 4 || $10 ||    
||Tran|| 6 || $20 || 

我需要提取该人花了钱的第一周,然后增加该人前2周的支出。例如-对于乔恩(Jon),由于他在Wk1上花了钱,所以我只需要提取第1周和第2周并进行汇总。对于Linda来说,由于只有一周,所以我只需要那一周的价值。对于Tran来说,由于她是从第3周开始花钱的,所以我需要第3周和第4周的支出总和。

我在Python中使用Pyspark,因为实际的数据集非常大,并尝试了grouby等,但没有成功。任何有关如何分解和编码的想法都很棒!

谢谢, 阿哈尔

0 个答案:

没有答案