基于时间戳的对象聚类(在Pandas中)

时间:2015-03-17 22:03:48

标签: python pandas statistics cluster-analysis timedelta

如何根据时间戳找到频繁出现的值(userID)?

我的问题与此问题有关:Session generation from log file analysis with pandas - 但是,我的数据已经过会话,我想更进一步找到同时登录的用户,这意味着'sessionBegin'已关闭由

当然,我们必须设置粒度,让我们假设同时登录“sessionBegin”低于30分钟的用户。

# my data (a series with level-2 index):

                         sessionBegin
userID    sessionID

      A            1        2014-5-7 14:15
      A            2        2014-5-8 16:30
      B            3        2014-5-7 20:33
      C            4        2014-5-7 14:20
      C            5        2014-5-7 18:58
      C            5        2014-5-8 16:30
      D            6        2014-5-7 15:01
      D            6        2014-5-8 12:04

在此示例中,用户ID AC之间明显存在共现(统计依赖性?)。

我在考虑将时间戳设置为索引并使用大小为30分钟的滚动窗口,但我现在知道如何识别重新出现的用户ID集合。是否有可能不仅识别成对的用户ID而且还识别更大的集合?

0 个答案:

没有答案