pandas group by n seconds并应用任意滚动功能

时间:2013-11-20 12:08:33

标签: python pandas dataframe

我有以下格式的加速度计读数的一些csv数据(不完全是这样,真实数据具有更高的采样率):

2013-09-28 17:36:50.322120,  0.152695, -0.545074, -0.852997
2013-09-28 17:36:50.622988,  0.141800, -0.554947, -0.867935
2013-09-28 17:36:51.923802,  0.132431, -0.547089, -0.879333
2013-09-28 17:36:52.124641,  0.124329, -0.530243, -0.887741
2013-09-28 17:36:52.425341,  0.122269, -0.519669, -0.900269
2013-09-28 17:36:52.926202,  0.122879, -0.502151, -0.902023
....
....
....
....
2013-09-28 17:49:14.440343,  0.005447, -0.623016, -0.773529
2013-09-28 17:49:14.557806,  0.009048, -0.623093, -0.790909
2013-09-28 17:49:14.758442,  0.007217, -0.617386, -0.815796

我使用pandas

加载它们
import pandas as pd
accDF=pd.read_csv(accFileName,header=0, sep=',') 
accDF.columns=['time','x','y','z']
accDF=accDF.set_index(['time'])

加速计数据未统一采样,我想每10或20或30秒对数据进行分组,并将自定义功能应用于数据组。

如果数据是统一采样的,那么应用滚动功能会很容易。 但是,由于它不是,我想使用时间戳间隔来应用groupby。 这样做的间隔为一秒很容易:

accDF_win=accDF.groupby(accDF.index.second).apply... etc

但是,我无法弄清楚如何按秒数分组,然后对其应用函数。

使用TimeGrouper,我可以执行以下操作:

accDF_win=accDF.groupby(pd.TimeGrouper(freq='3Min'))

任意数分钟,但似乎TimeGrouper没有'秒'分辨率。

提前感谢您的帮助

2 个答案:

答案 0 :(得分:1)

首先,您必须将datetime-column转换为python-datetime对象(如果您没有这样做)。

>>> import pandas as pd
>>> from dateutil import parser
>>> df=pd.read_csv("test.csv",header=None,date_parser=True)
#convert to datetime index, f.e. with dateutil
>>> df=df.set_index(df[0].map(parser.parse)

然后像这样使用pd.TimeGrouper

>>> df[3].groupby(pd.TimeGrouper('10S')).head()
2013-09-28 17:36:40  2013-09-28 17:36:40.322120   -0.852997
                     2013-09-28 17:36:41.622988   -0.867935
                     2013-09-28 17:36:42.923802   -0.879333
                     2013-09-28 17:36:43.124641   -0.887741
                     2013-09-28 17:36:45.425341   -0.900269
2013-09-28 17:36:50  2013-09-28 17:36:52.926202   -0.902023
                     2013-09-28 17:36:53.322120   -0.852997
                     2013-09-28 17:36:53.622988   -0.867935
                     2013-09-28 17:36:54.923802   -0.879333
                     2013-09-28 17:36:54.124641   -0.887741
2013-09-28 17:49:50  2013-09-28 17:49:56.440343   -0.773529
                     2013-09-28 17:49:56.557806   -0.790909
                     2013-09-28 17:49:57.758442   -0.815796

或者查看重新取样功能here。也许您可以应用自定义重采样功能,而不是使用groupby方法。

df[3].resample("10S",how=lambda x: Whateveryouwanttodo)

没有任何功能,它会填满NaN:

>>> df[3].resample("10S")
0
2013-09-28 17:36:40   -0.877655
2013-09-28 17:36:50   -0.884617
2013-09-28 17:37:00         NaN
2013-09-28 17:37:10         NaN
2013-09-28 17:37:20         NaN
2013-09-28 17:37:30         NaN
2013-09-28 17:37:40         NaN

答案 1 :(得分:1)

我认为你不需要TimeGrouper。支持第二次重采样。你not the first person尝试'S'几秒钟(所以熊猫应该支持它吗?);正确的字符串是's'。

df = pd.read_csv(filename, parse_dates=True, sep=',', index_col=0, header=None)
df.columns = ['x', 'y', 'z']
df.resample('10s', how=f)  # where f is your function

编辑:实际上,在我的版本(即将发布的0.13)中,我发现'10S'也可以。也许你的整个问题都没有解析日期。