我有一个看起来像这样的数据框:
|-----------------------------------------------------|
| | category | pct_formation |
|-----------------------------------------------------|
|ts_timestamp | | |
|-----------------------------------------------------|
|2018-10-22 10:13:44.043 | in_petr | 37.07 |
|2018-10-22 10:17:09.527 | in_petr | 36.97 |
|2018-10-22 10:17:43.977 | in_dsh | 36.95 |
|2018-10-22 10:17:43.963 | in_dsh | 36.96 |
|2018-10-22 10:17:09.527 | in_petr | 32.96 |
|2018-10-22 10:19:44.040 | out_petr | 36.89 |
|2018-10-23 10:19:44.043 | out_petr | 36.90 |
|2018-10-23 10:19:37.267 | sync | 33.91 |
|2018-10-23 10:19:44.057 | sync | 36.96 |
|2018-10-23 10:19:16.750 | out_petr | 36.88 |
|2018-10-23 10:20:03.160 | sync | 36.98 |
|2018-10-23 10:20:32.350 | sync | 37.00 |
|2018-10-23 10:23:03.150 | sync | 34.58 |
|2018-10-23 10:22:18.633 | in_dsh | 36.98 |
|2018-10-23 10:25:39.557 | in_dsh | 36.97 |
|-----------------------------------------------------|
数据包含每天在不同时间(频率不规则,间隔不均匀)收集的各个类别的pct_formation
值。
我想比较每天上午9点至上午11点之间10分钟滚动窗口中每个类别的平均pct_formation或一周的平均值。
问题在于每个类别的数据并不总是在上午9点开始输入。对于某些人来说,它从9.10am开始,对于某些人来说是9.15am,对于某些人来说是10am,等等。同样,数据也不定期出现。如何获取每天和上午9点至11点之间每个类别的10分钟滚动平均值?
最初,我将ts_timestamp
列转换为索引:
df = df.set_index('ts_timestamp')
然后,我可以groupby
并像这样使用rolling()
:
df.groupby('category').rolling('10T').agg({'pct_formation': 'mean'})
但是,这不会向我显示10分钟的常规间隔,而是显示数据帧中的时间戳。
我意识到我需要创建一个像这样的数据范围用作索引:
pd.date_range(start=df.index.min().replace(hour=9, minute=0, second=0, microsecond=0),
end=df.index.max().replace(hour=11, minute=0, second=0, microsecond=0),
freq='10T')
#
# or should I use freq='1T' so that rolling() can do 10 minute intervals?
但是,如何将数据框与此范围对齐?如何计算范围之间出现的多个值的平均值?
我不熟悉时间序列数据,希望对您有所帮助。请随时询问是否不清楚。
答案 0 :(得分:1)
使用pd.Grouper
:
df.groupby(['category', pd.Grouper(key = 'ts_timestamp', freq = '10Min')]).\
agg({'pct_formation': 'mean'})
输出:
pct
cat ts
in_dsh 2018-10-22 10:10:00 36.955000
in_petr 2018-10-22 10:10:00 35.666667
out_petr 2018-10-22 10:10:00 36.890000
2018-10-23 10:10:00 36.900000
sync 2018-10-23 10:10:00 35.435000