我有一个包含以下内容的数据框
date val
2010-01-01 20:46:15.00 7665
2010-01-01 20:46:55.20 2878
2010-01-01 20:47:55.20 8211
2010-02-12 03:08:03.20 0027
2010-02-12 03:09:10.07 3319
2011-04-21 11:46:14.40 3239
2011-04-21 11:47:08.12 7665
2012-06-25 12:42:03.09 7750
2012-06-25 13:38:54.88 7740
我希望对数据进行装箱,以便我有一个新列,使其包含在10分钟内共同出现的val。在上面的示例中,就像
bin vals_in_bin
2010-01-01 00:00:00.00 - 00:10:00.00 None
.
.
2010-01-01 20:40:00.00 - 20:50:00.00 7665,2878,8211
.
.
然后我想找到在此新数据中共同出现的前10对vals
例如,如果我们假设值(7665、2878、8211)多数时候同时出现在新数据中,则这将导致3个顶部同时出现的对(7665、2878),(7665、8211) ,(2878,8211)。我需要得到对应于10个最常见的配对的配对。
到目前为止,我成功的是每次创建垃圾箱。但是我不知道如何根据这个垃圾箱对val进行分组
data = pd.read_csv(file_loc))
data= data.drop_duplicates()
data.reindex()
data['date'] = pd.to_datetime(data['date'])
start_time = data['date'].min()
end_time = data['date'].max()
bins = pd.date_range(start = start_time, end=end_time, freq='10T')