可以说我有一个带有时间戳和用户ID的数据集。
我想以一种方式创建“会话”变量,以便我可以指定一个时间(1分钟或2分钟),并为每个用户ID指定一个用户ID中的下一个时间是否在此时间范围内(1个或2分钟或因此)然后将两者记录为同一会话。基本上,我看第一次,然后计算下一次的差异,如果在1分钟内,则进行相同的会话。类似地,如果会话发生变化,则我们以该新会话时间为基准时间,并计算相对于该新会话时间的所有后续访问时间。
我希望此time_frame像一个可以播放而不是硬编码的变量。
我可以在带有窗口功能的sql中执行此操作。想知道如何在熊猫中做到这一点。
time company_id
2018-10-23 00:01:23 113141P
2018-10-23 00:01:29 113141P
2018-10-23 00:07:37 113141P
2018-10-23 00:22:23 113141P
2018-10-23 00:23:10 113141P
答案 0 :(得分:1)
您可以将$NF
与transform
和diff
结合使用:
cumsum