假设我有以下pandas Dataframe:
name timestamp
1 event1 9/2016 13:47:49
1 event2 9/2016 13:47:55
1 event3 9/2016 13:49:30
1 event4 9/2016 13:50:49
1 trigger 9/2016 13:51:49
1 event6 9/2016 13:54:49
1 event7 9/2016 13:55:49
1 event8 9/2016 13:56:49
1 event9 9/2016 13:57:49
1 trigger 9/2016 13:58:49
1 event10 9/2016 13:59:49
1 event11 9/2016 13:59:59
1 event12 9/2016 14:00:49
1 event13 9/2016 14:00:59
1 event14 9/2016 14:01:49
我要做的是以下内容: 每当出现触发列时,我想选择最后3条记录。所以最后我想要这个:
name timestamp
1 event2 9/2016 13:47:55
1 event3 9/2016 13:49:30
1 event4 9/2016 13:50:49
1 event7 9/2016 13:55:49
1 event8 9/2016 13:56:49
1 event9 9/2016 13:57:49
是否有一个很好的预定义pandas函数来执行此操作,还是我必须迭代数据帧并手动获取它们?
谢谢你!答案 0 :(得分:3)
您可以根据cumsum
列是否等于name
条件的trigger
创建一个组变量,然后为每个组取最后三个记录(最后一组需要由于事后没有trigger
而被过滤掉了:
g = (df.name == 'trigger').cumsum()
df[g < g.max()].groupby(g[g < g.max()]).tail(3)
# name timestamp
#1 event2 9/2016 13:47:55
#1 event3 9/2016 13:49:30
#1 event4 9/2016 13:50:49
#1 event7 9/2016 13:55:49
#1 event8 9/2016 13:56:49
#1 event9 9/2016 13:57:49