熊猫时间序列会将事件统计到特定日期

时间:2018-12-01 12:59:48

标签: python-3.x pandas pandas-groupby

我是熊猫初学者,我正在使用https://www.kaggle.com/jordangoblet/atp-tour-20002016中的网球数据,因此数据示例将如下所示

ATP Location    Tournament  Date        Series          Court   Surface  Round  Best_of    Winner       Loser
1    Adelaide    AO         3/01/2000 International    Outdoor   Hard    1st    3          Dosedel S.   Ljubicic I.
1    Adelaide    AO         3/01/2000 International    Outdoor   Hard    1st    3          Enqvist T.   Clement A

screenshot 而且我正在尝试生成诸如:

的功能
  • 截至目前为止,他们互相进行了多少场比赛
  • 每个玩家在当前日期之前已经赢了多少场比赛
  • 我尝试了基本的groupby和重采样,但无法达到所需的解决方案

1 个答案:

答案 0 :(得分:0)

尝试根据事件的date变量对数据框进行切片。然后,您可以在辅助列上使用groupby函数。要获取辅助列:

df['aux'] = df.apply(lambda x: '_'.join(sorted([x['Winner'], x['Loser']])), axis = 1)

将其分组后,您可以使用分组来计算它们的任何类型的统计信息(如您提到的统计信息)。

如果您想获取整个历史记录的累积统计信息,则可以在组上使用cumsum和类似功能(如果您确保数据是根据事件时间戳进行排序的。)

如果仍然不清楚或卡住,请告诉我。