计算自上次发生在PySpark以来的天数

时间:2019-06-14 15:25:29

标签: apache-spark pyspark

我在PySpark中有一个数据框,如下所示:

df1:

id, date, points_redeemed
1, 01/01, 0
1, 01/02, 0
1, 01/03, 0
1, 01/04, 0
1, 01/05, 0
1, 01/06, 2.5
1, 01/07, 0
1, 01/08, 0
1, 01/09, 0

我想做的是,创建另一个列,该列指定自上次兑换积分以来的天数,基本上是任何具有points_redeemed>0条件的东西。

所以我的最终数据帧可能看起来像这样:

1, 01/01, 0, 1
1, 01/02, 0, 2
1, 01/03, 0, 3
1, 01/04, 0, 4
1, 01/05, 0, 5
1, 01/06, 2.5, 0
1, 01/07, 0, 1
1, 01/08, 0, 2
1, 01/09, 0, 3

有没有办法仅使用数据框操作来做到这一点?

0 个答案:

没有答案