从数据框中选择事件出现之前的最后n条记录

时间:2016-10-09 12:40:40

标签: python pandas select dataframe

假设我有以下pandas Dataframe:

      name           timestamp        
1    event1      9/2016 13:47:49          
1    event2      9/2016 13:47:55          
1    event3      9/2016 13:49:30          
1    event4      9/2016 13:50:49          
1    trigger     9/2016 13:51:49          
1    event6      9/2016 13:54:49          
1    event7      9/2016 13:55:49          
1    event8      9/2016 13:56:49          
1    event9      9/2016 13:57:49          
1    trigger     9/2016 13:58:49          
1    event10     9/2016 13:59:49          
1    event11     9/2016 13:59:59         
1    event12     9/2016 14:00:49          
1    event13     9/2016 14:00:59          
1    event14     9/2016 14:01:49     

我要做的是以下内容: 每当出现触发列时,我想选择最后3条记录。所以最后我想要这个:

      name           timestamp   
1    event2      9/2016 13:47:55          
1    event3      9/2016 13:49:30          
1    event4      9/2016 13:50:49 
1    event7      9/2016 13:55:49          
1    event8      9/2016 13:56:49          
1    event9      9/2016 13:57:49 

是否有一个很好的预定义pandas函数来执行此操作,还是我必须迭代数据帧并手动获取它们?

谢谢你!

1 个答案:

答案 0 :(得分:3)

您可以根据cumsum列是否等于name条件的trigger创建一个组变量,然后为每个组取最后三个记录(最后一组需要由于事后没有trigger而被过滤掉了:

g = (df.name == 'trigger').cumsum()

df[g < g.max()].groupby(g[g < g.max()]).tail(3)

#     name        timestamp
#1  event2  9/2016 13:47:55
#1  event3  9/2016 13:49:30
#1  event4  9/2016 13:50:49
#1  event7  9/2016 13:55:49
#1  event8  9/2016 13:56:49
#1  event9  9/2016 13:57:49