我有一个DataFrame df
,其中每条记录代表一个足球比赛。团队将不止一次出现。我需要为每个团队的分数计算某种滚动均值(好吧,不完全是字母的滚动均值)。
date home away score_h score_a
166 2013-09-01 Fulham Chelsea 0 0
167 2013-09-03 Arsenal Everton 0 2
164 2013-09-05 Arsenal Swansea 5 1
165 2013-09-06 Fulham Norwich 0 1
163 2013-09-18 Arsenal Swansea 0 0
我需要计算的是每支球队(主场和客场)的平均得分。
为简洁起见,我们来做主页:
grouped = df.groupby('home')
grouped = grouped.sort_index(by='date') # rows inside groups must be in asc order
这导致:
date home away score_h score_a
home
Arsenal 167 2013-09-03 Arsenal Everton 0 2
164 2013-09-05 Arsenal Swansea 5 1
163 2013-09-18 Arsenal Swansea 0 0
Fulham 166 2013-09-01 Fulham Chelsea 0 0
165 2013-09-06 Fulham Norwich 0 1
问题从这里开始
现在,我需要为团队计算“滚动均值”。让我们为名为Arsenal
的组手动完成。最后,我们应该使用2个额外的列,我们称之为:rmean_h
和rmean_a
。小组中的第一条记录(167
)的得分为0
和2
。这些rmean
分别只是0
和2
。对于组中的第二条记录(164
),rmeans将为(0+5)/2 = 2.5
和(2+1) / 2 = 1.5
,对于第三条记录,(0+5+0)/3 = 1.66
和(2+1+0)/3 = 1
。
我们的DataFrame现在应该是这样的:
date home away score_h score_a rmean_h rmean_a
home
Arsenal 167 2013-09-03 Arsenal Everton 0 2 0 2
164 2013-09-05 Arsenal Swansea 5 1 2.5 1.5
163 2013-09-18 Arsenal Swansea 0 0 1.66 1
Fulham 166 2013-09-01 Fulham Chelsea 0 0
165 2013-09-06 Fulham Norwich 0 1
我想对我的数据进行这些计算,请问您有什么建议吗?
答案 0 :(得分:7)
您可以将expanding_mean
(请参阅docs)应用于每个群组:
grouped = df.sort(columns='date').groupby('home')
grouped['score_h'].apply(pd.expanding_mean)