熊猫数据框合并和分组

时间:2020-01-21 08:43:09

标签: python-3.x pandas pandas-groupby binning

我有一个包含以下内容的数据框

date                    val

2010-01-01 20:46:15.00  7665
2010-01-01 20:46:55.20  2878
2010-01-01 20:47:55.20  8211
2010-02-12 03:08:03.20  0027
2010-02-12 03:09:10.07  3319
2011-04-21 11:46:14.40  3239
2011-04-21 11:47:08.12  7665
2012-06-25 12:42:03.09  7750
2012-06-25 13:38:54.88  7740

我希望对数据进行装箱,以便我有一个新列,使其包含在10分钟内共同出现的val。在上面的示例中,就像

bin                                   vals_in_bin
2010-01-01 00:00:00.00 - 00:10:00.00    None
.
.
2010-01-01 20:40:00.00 - 20:50:00.00   7665,2878,8211
.
.

然后我想找到在此新数据中共同出现的前10对vals

例如,如果我们假设值(7665、2878、8211)多数时候同时出现在新数据中,则这将导致3个顶部同时出现的对(7665、2878),(7665、8211) ,(2878,8211)。我需要得到对应于10个最常见的配对的配对。

到目前为止,我成功的是每次创建垃圾箱。但是我不知道如何根据这个垃圾箱对val进行分组

data = pd.read_csv(file_loc))
data= data.drop_duplicates()
data.reindex()
data['date'] = pd.to_datetime(data['date'])
start_time = data['date'].min()
end_time = data['date'].max()
bins = pd.date_range(start = start_time, end=end_time, freq='10T')

0 个答案:

没有答案