假设我有一个timestamp
'(例如,datetime
或numpy.datetime64
)。此外,每个条目代表一个事件。我想每小时播放一次事件;即计算每小时发生的事件数。有一种直截了当的方法吗?一些Numpy / Pandas魔法?或者唯一的方法是将timestamp
转换为秒并按照建议{@ 3}}
答案 0 :(得分:1)
如果您正在使用Pandas,并且您有一个具有DateTime索引的时间序列,则可以使用resample
方法和how='count'
。例如,在下文中,rng
是一系列时间戳,ts
是一系列使用rng
作为索引的值。 (对于您的计算,时间序列中的值并不重要。)在此示例中,有360"事件"每小时,所以除了最后一小时,每小时的预期结果为360.
创建一些示例数据:
In [71]: import pandas as pd
In [72]: rng = pd.date_range('1/1/2011', periods=10000, freq='10S')
In [73]: ts = pd.Series(np.random.randint(0, 5, len(rng)), index=rng)
In [74]: ts
Out[74]:
2011-01-01 00:00:00 2
2011-01-01 00:00:10 0
2011-01-01 00:00:20 1
2011-01-01 00:00:30 4
2011-01-01 00:00:40 1
2011-01-01 00:00:50 1
2011-01-01 00:01:00 2
2011-01-01 00:01:10 0
2011-01-01 00:01:20 3
2011-01-01 00:01:30 4
2011-01-01 00:01:40 2
2011-01-01 00:01:50 4
2011-01-01 00:02:00 1
2011-01-01 00:02:10 0
2011-01-01 00:02:20 4
...
2011-01-02 03:44:10 2
2011-01-02 03:44:20 0
2011-01-02 03:44:30 3
2011-01-02 03:44:40 0
2011-01-02 03:44:50 0
2011-01-02 03:45:00 4
2011-01-02 03:45:10 3
2011-01-02 03:45:20 2
2011-01-02 03:45:30 0
2011-01-02 03:45:40 1
2011-01-02 03:45:50 0
2011-01-02 03:46:00 2
2011-01-02 03:46:10 0
2011-01-02 03:46:20 2
2011-01-02 03:46:30 2
Freq: 10S, Length: 10000
使用resample
方法计算每小时的事件数。第一个参数'H'
表示我们正在重新采样到小时费率。
In [75]: ts.resample('H', how='count')
Out[75]:
2011-01-01 00:00:00 360
2011-01-01 01:00:00 360
2011-01-01 02:00:00 360
2011-01-01 03:00:00 360
2011-01-01 04:00:00 360
2011-01-01 05:00:00 360
2011-01-01 06:00:00 360
2011-01-01 07:00:00 360
2011-01-01 08:00:00 360
2011-01-01 09:00:00 360
2011-01-01 10:00:00 360
2011-01-01 11:00:00 360
2011-01-01 12:00:00 360
2011-01-01 13:00:00 360
2011-01-01 14:00:00 360
2011-01-01 15:00:00 360
2011-01-01 16:00:00 360
2011-01-01 17:00:00 360
2011-01-01 18:00:00 360
2011-01-01 19:00:00 360
2011-01-01 20:00:00 360
2011-01-01 21:00:00 360
2011-01-01 22:00:00 360
2011-01-01 23:00:00 360
2011-01-02 00:00:00 360
2011-01-02 01:00:00 360
2011-01-02 02:00:00 360
2011-01-02 03:00:00 280
Freq: H, dtype: int64