我有一些看起来像
的数据||Name || Week ||Spend ||
||Jon || 4 || $20 ||
||Jon || 2 || $10 ||
||Jon || 1 || $20 ||
||Jon || 10 || $10 ||
||Linda|| 2 || $20 ||
||Tran|| 3 || $10 ||
||Tran|| 5 || $20 ||
||Tran|| 4 || $10 ||
||Tran|| 6 || $20 ||
我需要提取该人花了钱的第一周,然后增加该人前2周的支出。例如-对于乔恩(Jon),由于他在Wk1上花了钱,所以我只需要提取第1周和第2周并进行汇总。对于Linda来说,由于只有一周,所以我只需要那一周的价值。对于Tran来说,由于她是从第3周开始花钱的,所以我需要第3周和第4周的支出总和。
我在Python中使用Pyspark,因为实际的数据集非常大,并尝试了grouby等,但没有成功。任何有关如何分解和编码的想法都很棒!
谢谢, 阿哈尔