熊猫按时间分组,指定的开始时间为非整数分钟

时间:2019-01-15 20:47:22

标签: python pandas group-by grouping pandas-groupby

我有一个带有一个小时信号的数据帧。我想在10分钟内将它们分组。问题在于开始时间并不是10分钟的“整数倍”,因此,我没有获得6组,而是获得了7个,其中第一个和最后一个不完整。

该问题很容易重现

import pandas as pd
import numpy as np
import datetime as dt

rng = pd.date_range('1/1/2011 00:05:30', periods=3600, freq='1S')
ts = pd.DataFrame({'a':np.random.randn(len(rng)),'b':np.random.randn(len(rng))}, index=rng)

interval = dt.timedelta(minutes=10)

ts.groupby(pd.Grouper(freq=interval)).apply(len)

2011-01-01 00:00:00    270
2011-01-01 00:10:00    600
2011-01-01 00:20:00    600
2011-01-01 00:30:00    600
2011-01-01 00:40:00    600
2011-01-01 00:50:00    600
2011-01-01 01:00:00    330
Freq: 10T, dtype: int64

我尝试按照here所述解决问题,但是base仅花费整数分钟。对于上面的示例(从00:05之后的30秒开始),下面的代码仍然无效

ts.groupby(pd.Grouper(freq=interval, base=ts.index[0].minute)).apply(len)

如何为石斑鱼设置通用开始时间?我的预期输出是

2011-01-01 00:05:30    600
2011-01-01 00:15:30    600
2011-01-01 00:25:30    600
2011-01-01 00:35:30    600
2011-01-01 00:45:30    600
2011-01-01 00:55:30    600

1 个答案:

答案 0 :(得分:5)

base接受一个float参数。除了分钟,您还必须考虑秒。

base = ts.index[0].minute + ts.index[0].second/60
ts.groupby(pd.Grouper(freq=interval, base=base)).size()

2011-01-01 00:05:30    600
2011-01-01 00:15:30    600
2011-01-01 00:25:30    600
2011-01-01 00:35:30    600
2011-01-01 00:45:30    600
2011-01-01 00:55:30    600
Freq: 10T, dtype: int64