我有这样的时间片:
times | data
1994-07-25 15:15:00.000 | 165
1994-07-25 16:00:00.000 | 165
1994-07-26 18:45:00.000 | 165
1994-07-27 15:15:00.000 | 165
1994-07-27 16:00:00.000 | 165
1994-07-28 18:45:00.000 | 165
1994-07-28 19:15:00.000 | 63
1994-07-28 20:35:00.000 | 64
1994-07-28 21:55:00.000 | 64
1994-07-29 14:15:00.000 | 62
1994-07-30 15:35:00.000 | 62
1994-07-30 16:55:00.000 | 61
我想对此数据执行回顾移动平均线,但基于日期的窗口,不在行或日期时间
例如,说lookback = 3 days
,然后说
1994-07-29 14:15:00.000 | 62
其回望移动平均值应该是
的平均值1994-07-26 18:45:00.000 | 165
1994-07-27 15:15:00.000 | 165
1994-07-27 16:00:00.000 | 165
1994-07-28 18:45:00.000 | 165
1994-07-28 19:15:00.000 | 63
1994-07-28 20:35:00.000 | 64
1994-07-28 21:55:00.000 | 64
因为这是一个3天的回顾,所以无论一天内有多少行,平均值将从1994-07-26
开始3天。
此外,对于具有相同日期(不包括时间)的多行,其回溯移动平均值应该相同。
我怎样才能轻松实现这一目标?
答案 0 :(得分:3)
我会使用pandas DatetimeIndex来累积每个日期的值。
然后,您可以使用rolling_mean来计算所需的平均值。
import numpy as np
import pandas
df = pandas.DataFrame({'times': np.array(['1994-07-25 15:15:00.000',
'1994-07-25 16:00:00.000',
'1994-07-26 18:45:00.000',
'1994-07-27 15:15:00.000',
'1994-07-27 16:00:00.000',
'1994-07-28 18:45:00.000',
'1994-07-28 19:15:00.000',
'1994-07-28 20:35:00.000',
'1994-07-28 21:55:00.000',
'1994-07-29 14:15:00.000',
'1994-07-30 15:35:00.000',
'1994-07-30 16:55:00.000'], dtype='datetime64'),
'data': [165,165,165,165,165,165,63,64,64,62,62,61]})
df = df.set_index('times')
g = df.groupby(df.index.date)
days = 3
pandas.rolling_mean(g.sum(), days)
这给出了:
1994-07-25 NaN
1994-07-26 NaN
1994-07-27 275.000000
1994-07-28 283.666667
1994-07-29 249.333333
1994-07-30 180.333333
您可能希望使用center
上的min_periods
和rolling_mean
参数来获得您想要的确切结果。
答案 1 :(得分:0)
import pandas as pd
首先,读入您的数据,假设保存为csv:
df=pd.read_csv('yourfile.txt',sep=' | ',parse_dates=True,index_col=0)
然后在一天的时间内重新取样,请注意这默认为“意味着'每天的样本:
df2 = df.resample('D')
过去3天:
df2[-3:]
给出:
data
1994-07-28 89.0
1994-07-29 62.0
1994-07-30 61.5
假设yourfile.txt
保存如下:
times | data
1994-07-25 15:15:00.000 | 165
1994-07-25 16:00:00.000 | 165
1994-07-26 18:45:00.000 | 16
1994-07-27 15:15:00.000 | 165
1994-07-27 16:00:00.000 | 165
1994-07-28 18:45:00.000 | 165
1994-07-28 19:15:00.000 | 63
1994-07-28 20:35:00.000 | 64
1994-07-28 21:55:00.000 | 64
1994-07-29 14:15:00.000 | 62
1994-07-30 15:35:00.000 | 62
1994-07-30 16:55:00.000 | 61