我有一个数据框,其中包含时间戳作为索引和一列标签
df=DataFrame({'time':[ datetime(2015,11,2,4,41,10), datetime(2015,11,2,4,41,39), datetime(2015,11,2,4,41,47),
datetime(2015,11,2,4,41,59), datetime(2015,11,2,4,42,4), datetime(2015,11,2,4,42,11),
datetime(2015,11,2,4,42,15), datetime(2015,11,2,4,42,30), datetime(2015,11,2,4,42,39),
datetime(2015,11,2,4,42,41),datetime(2015,11,2,5,2,9),datetime(2015,11,2, 5,2,10),
datetime(2015,11,2,5,2,16),datetime(2015,11,2,5,2,29),datetime(2015,11,2, 5,2,51),
datetime(2015,11,2,5,9,1),datetime(2015,11,2,5,9,21),datetime(2015,11,2,5,9,31),
datetime(2015,11,2,5,9,40),datetime(2015,11,2,5,9,55)],
'Label':[2,0,0,0,1,0,0,1,1,1,1,3,0,0,3,0,1,0,1,1]}).set_index(['time'])
我希望获得标签在不同时刻出现的avergae次数 在一个分钟的时间里。
例如,标签0在小时41中以小时4出现3次,在小时4中出现2次
在第42分钟,
2小时2小时5分钟分钟2小时5分钟小时2分钟因此平均每小时计数2次
小时4分钟
(2+3)/2=2.5
及其在小时5中的每分钟计数
(2+2)/2=2
我正在寻找的输出是
Hour 1
Label avg
0 2.5
1 2
2 .5
3 0
Hour 2
Label avg
0 2
1 1.5
2 0
3 1
到目前为止我所拥有的是
df['hour']=df.index.hour
hour_grp=df.groupby(['hour'], as_index=False)
然后我可以像
这样的东西res=[]
for key, value in hour_grp:
res.append(value)
然后分组
res[0].groupby(pd.TimeGrouper('1Min'))['Label'].value_counts()
但这就是我被困的地方,更不用说效率不高了
答案 0 :(得分:1)
首先将DataFrame压缩成一个系列(毕竟,它只有一列):
s = df.squeeze()
计算每个标签按分钟出现的次数:
counts_by_min = (s.resample('min')
.apply(lambda x: x.value_counts())
.unstack()
.fillna(0))
# 0 1 2 3
# time
# 2015-11-02 04:41:00 3.0 0.0 1.0 0.0
# 2015-11-02 04:42:00 2.0 4.0 0.0 0.0
# 2015-11-02 05:02:00 2.0 1.0 0.0 2.0
# 2015-11-02 05:09:00 2.0 3.0 0.0 0.0
按小时重新采样counts_by_min
,以获得每个标签按小时出现的次数:
counts_by_hour = counts_by_min.resample('H').sum()
# 0 1 2 3
# time
# 2015-11-02 04:00:00 5.0 4.0 1.0 0.0
# 2015-11-02 05:00:00 4.0 4.0 0.0 2.0
按小时计算每个标签出现的分钟数:
minutes_by_hour = counts_by_min.astype(bool).resample('H').sum()
# 0 1 2 3
# time
# 2015-11-02 04:00:00 2.0 1.0 1.0 0.0
# 2015-11-02 05:00:00 2.0 2.0 0.0 1.0
除去最后两个以获得您想要的结果:
avg_per_hour = counts_by_hour.div(minutes_by_hour).fillna(0)
# 0 1 2 3
# time
# 2015-11-02 04:00:00 2.5 4.0 1.0 0.0
# 2015-11-02 05:00:00 2.0 2.0 0.0 2.0
答案 1 :(得分:0)
访问DateTimeIndex的分钟:
mn = df.index.minute
访问DateTimeIndex的小时:
hr = df.index.hour
通过将上面获得的变量保持为键来执行Groupby
。通过用0填充缺失值来计算 Label 和value_counts
下的内容unstack
。最后,在包含小时值的索引轴上对它们求平均值。
df.groupby([mn,hr])['Label'].value_counts().unstack(fill_value=0).mean(level=1)