我是熊猫初学者,我正在使用https://www.kaggle.com/jordangoblet/atp-tour-20002016中的网球数据,因此数据示例将如下所示
ATP Location Tournament Date Series Court Surface Round Best_of Winner Loser
1 Adelaide AO 3/01/2000 International Outdoor Hard 1st 3 Dosedel S. Ljubicic I.
1 Adelaide AO 3/01/2000 International Outdoor Hard 1st 3 Enqvist T. Clement A
screenshot 而且我正在尝试生成诸如:
的功能等
我尝试了基本的groupby和重采样,但无法达到所需的解决方案
答案 0 :(得分:0)
尝试根据事件的date变量对数据框进行切片。然后,您可以在辅助列上使用groupby
函数。要获取辅助列:
df['aux'] = df.apply(lambda x: '_'.join(sorted([x['Winner'], x['Loser']])), axis = 1)
将其分组后,您可以使用分组来计算它们的任何类型的统计信息(如您提到的统计信息)。
如果您想获取整个历史记录的累积统计信息,则可以在组上使用cumsum
和类似功能(如果您确保数据是根据事件时间戳进行排序的。)
如果仍然不清楚或卡住,请告诉我。