Pyspark中的高级窗口,动态最后

时间:2019-05-15 11:53:12

标签: apache-spark pyspark clickstream

问题:给定一个时间序列数据(这是用户活动的点击流)存储在蜂巢中,ask是使用spark使用会话ID丰富数据。

会话定义

会话在闲置1小时后到期 会话保持活动状态,总共持续2个小时

数据:

      click_time      user_id
2018-01-01 11:00:00     u1
2018-01-01 12:10:00     u1
2018-01-01 13:00:00     u1
2018-01-01 13:50:00     u1
2018-01-01 14:40:00     u1
2018-01-01 15:30:00     u1
2018-01-01 16:20:00     u1
2018-01-01 16:50:00     u1
2018-01-01 11:00:00     u2
2018-01-02 11:00:00     u2

我希望输出在Pyspark中进行计算。

0 个答案:

没有答案