我在PySpark中有一个数据框,如下所示:
df1:
id, date, points_redeemed
1, 01/01, 0
1, 01/02, 0
1, 01/03, 0
1, 01/04, 0
1, 01/05, 0
1, 01/06, 2.5
1, 01/07, 0
1, 01/08, 0
1, 01/09, 0
我想做的是,创建另一个列,该列指定自上次兑换积分以来的天数,基本上是任何具有points_redeemed>0
条件的东西。
所以我的最终数据帧可能看起来像这样:
1, 01/01, 0, 1
1, 01/02, 0, 2
1, 01/03, 0, 3
1, 01/04, 0, 4
1, 01/05, 0, 5
1, 01/06, 2.5, 0
1, 01/07, 0, 1
1, 01/08, 0, 2
1, 01/09, 0, 3
有没有办法仅使用数据框操作来做到这一点?