问题:给定一个时间序列数据(这是用户活动的点击流)存储在蜂巢中,ask是使用spark使用会话ID丰富数据。
会话定义
会话在闲置1小时后到期 会话保持活动状态,总共持续2个小时
数据:
click_time user_id
2018-01-01 11:00:00 u1
2018-01-01 12:10:00 u1
2018-01-01 13:00:00 u1
2018-01-01 13:50:00 u1
2018-01-01 14:40:00 u1
2018-01-01 15:30:00 u1
2018-01-01 16:20:00 u1
2018-01-01 16:50:00 u1
2018-01-01 11:00:00 u2
2018-01-02 11:00:00 u2
我希望输出在Pyspark中进行计算。