我想计算足球队势头的衡量标准,在这种情况下是某支球队在过去3场比赛中获得的积分。我的数据如下:
HomeTeam AwayTeam H_Pts A_Pts
Barcelona Getafe 3 0
Levante Barcelona 1 1
Barcelona Las Palmas 3 0
Las Palmas Barcelona 3 0
Barcelona Madrid 1 1
这只是一些巴塞罗那比赛的样本。基本上我想要最终得到的是两个额外的列(比如Home_Momentum,Away_Momentum),它将这个特定团队在最后3场比赛中得到的分数加起来(不包括当前的比赛)。所以看起来应该是这样的:
HomeTeam AwayTeam H_Pts A_Pts Home_Momentum Away_Momentum
Barcelona Getafe 3 0 NaN NaN
Levante Barcelona 1 1 NaN NaN
Barcelona Las Palmas 3 0 NaN NaN
Las Palmas Barcelona 3 0 x 7
Barcelona Madrid 1 1 4 y
其中x(y)是拉斯帕尔马斯(马德里)在过去3场比赛中收集的积分总和。
到目前为止,我提出的是:
data["Home_Momentum"] = data.groupby("HomeTeam")["H_Pts"].apply(lambda x: x.rolling(3).sum().shift())
但问题在于它并没有考虑球队的客场比赛。
你有什么想法如何解决这个问题?
答案 0 :(得分:2)
重命名,列为多索引。堆栈并运行滚动总和
df.columns = [
['Team', 'Team', 'Points', 'Points'],
['Home', 'Away', 'Home', 'Away']
]
d1 = df.stack()
mom = d1.groupby('Team').Points.apply(lambda x: x.shift().rolling(3).sum())
d1.assign(Momentum=mom).unstack()
Points Team Momentum
Away Home Away Home Away Home
0 0 3 Getafe Barcelona NaN NaN
1 1 1 Barcelona Levante NaN NaN
2 0 3 Las Palmas Barcelona NaN NaN
3 0 3 Barcelona Las Palmas 7.0 NaN
4 1 1 Madrid Barcelona NaN 4.0
我们可以包括少于3场比赛的总和。
df.columns = [
['Team', 'Team', 'Points', 'Points'],
['Home', 'Away', 'Home', 'Away']
]
d1 = df.stack()
mom = d1.groupby('Team').Points.apply(lambda x: x.shift().rolling(3, 1).sum())
d1.assign(Momentum=mom).unstack()
Points Team Momentum
Away Home Away Home Away Home
0 0 3 Getafe Barcelona NaN NaN
1 1 1 Barcelona Levante 3.0 NaN
2 0 3 Las Palmas Barcelona NaN 4.0
3 0 3 Barcelona Las Palmas 7.0 0.0
4 1 1 Madrid Barcelona NaN 4.0