如何根据时间戳找到频繁出现的值(userID)?
我的问题与此问题有关:Session generation from log file analysis with pandas - 但是,我的数据已经过会话,我想更进一步找到同时登录的用户,这意味着'sessionBegin'已关闭由
当然,我们必须设置粒度,让我们假设同时登录“sessionBegin”低于30分钟的用户。
# my data (a series with level-2 index):
sessionBegin
userID sessionID
A 1 2014-5-7 14:15
A 2 2014-5-8 16:30
B 3 2014-5-7 20:33
C 4 2014-5-7 14:20
C 5 2014-5-7 18:58
C 5 2014-5-8 16:30
D 6 2014-5-7 15:01
D 6 2014-5-8 12:04
在此示例中,用户ID A
和C
之间明显存在共现(统计依赖性?)。
我在考虑将时间戳设置为索引并使用大小为30分钟的滚动窗口,但我现在知道如何识别重新出现的用户ID集合。是否有可能不仅识别成对的用户ID而且还识别更大的集合?