计算随时间的滚动平均值

时间:2019-12-03 16:21:30

标签: python pandas for-loop statistics rolling-computation

我有一个数据框,如下所示:


df = pd.DataFrame([['2019-01-01',2,5],['2019-01-02',15,8],['2019-01-03',1,9],['2019-01-04',10,20],['2019-01-05',5,15]],columns = ['date','data1','data2'])

         date  data1  data2
0  2019-01-01      2      5
1  2019-01-02     15      8
2  2019-01-03      1      9
3  2019-01-04     10     20
4  2019-01-05      5     15

我想计算每两天的滚动平均值,并将结果放入新的数据框中。例如,对于日期2019-01-01和2019-01-02,数据1的平均值将为8.5,数据2的平均值将为6.5,然后对于日期2019-01-02和2019-01-03的数据均值1将是8,而data2将是8.5。我的原始数据帧大于此值,因此我不希望一个接一个地执行此操作,并且我希望创建循环或可能的矢量化处理。我的目标是得到以下数据框

         date  data1  data2
0  2019-01-02    8.5    6.5
1  2019-01-03    8.0    8.5
2  2019-01-04    5.5   14.5
3  2019-01-05    7.5   17.5

我的尝试

def my_attempt(df):
    result = []
    start_date = datetime.datetime.strptime('2019-01-01','%Y-%m-%d')
    start_date = start_date.date()
    for i in range(5):
        df1 = df.loc[df['date'].isin([str(start_date + datetime.timedelta(days = i)),str(start_date + datetime.timedelta(days = i) + datetime.timedelta(days = 1))])]
        df1_mean = df1.mean()
    result += df1_mean
    return result

这是行不通的,因为df1.mean()将提供与我想要的格式不同的格式,并且无法使用result + = df1_mean来堆叠结果。

2 个答案:

答案 0 :(得分:1)

由于您的问题似乎与时间有关,因此最好将日期转换为datetime

df.date = pd.to_datetime(df.date)

df.rolling('2D', min_periods=2, on='date').mean().dropna()

输出:

      date  data1  data2            
2019-01-02    8.5    6.5
2019-01-03    8.0    8.5
2019-01-04    5.5   14.5
2019-01-05    7.5   17.5

答案 1 :(得分:0)

我认为使用Quang Hoang的解决方案更好,但是另一种方法是:

(df.set_index('date').iloc[1:] + df.set_index('date').shift(1).iloc[1:]) / 2