我试着寻找类似但却能找到的东西。所以我有以下结构数据帧。我希望删除5天或更长时间内具有相同分数的行。因此,在下面的情况下,PeronID AB-123的记录从2/1到2/6需要删除,对于DG-3465从2/3到2/10也需要删除。但TY-9456没什么。 我正在考虑使用rolling(),但是对于AB-123只会删除2 / 1-2 / 5但不会删除2/6。
PersonID Date Score
AB-123 2/1/2016 0
AB-123 2/2/2016 0
AB-123 2/3/2016 0
AB-123 2/4/2016 0
AB-123 2/5/2016 0
AB-123 2/6/2016 0
AB-123 2/7/2016 67.5
AB-123 2/8/2016 73.4
AB-123 2/9/2016 70.5
AB-123 2/10/2016 68
DG-3465 2/1/2016 22.5
DG-3465 2/2/2016 25.6
DG-3465 2/3/2016 36.4
DG-3465 2/4/2016 36.4
DG-3465 2/5/2016 36.4
DG-3465 2/6/2016 36.4
DG-3465 2/7/2016 36.4
DG-3465 2/8/2016 36.4
DG-3465 2/9/2016 36.4
DG-3465 2/10/2016 36.4
TY-9456 2/1/2016 0
TY-9456 2/2/2016 0
TY-9456 2/3/2016 5.23
TY-9456 2/4/2016 4.12
TY-9456 2/5/2016 5.95
TY-9456 2/6/2016 6.97
TY-9456 2/7/2016 12.45
TY-9456 2/8/2016 15.61
TY-9456 2/9/2016 15.61
TY-9456 2/10/2016 15.61
尝试了几件不同的事情,但我有点卡在脑子里没有任何东西出现。你会建议什么? 顺便使用python pandas;)
答案 0 :(得分:4)
您可以在得分列上roll
,计算运行标准偏差,然后删除标准偏差为零的行以及前面的五行(这假设您要删除连续几天得分相同的行):
df.drop(np.unique(df.Score.rolling(5).std()[lambda x: x == 0].index.values - pd.np.arange(5)[:, None]))
答案 1 :(得分:3)
你可以通过shift和cumsum()进行分组。编辑包括@Scott波士顿的建议
df.groupby(['PersonID',(df.Score != df.Score.shift()).cumsum()]).filter(lambda x: x.Score.size < 5)
PersonID Date Score
6 AB-123 2/7/2016 67.50
7 AB-123 2/8/2016 73.40
8 AB-123 2/9/2016 70.50
9 AB-123 2/10/2016 68.00
10 DG-3465 2/1/2016 22.50
11 DG-3465 2/2/2016 25.60
20 TY-9456 2/1/2016 0.00
21 TY-9456 2/2/2016 0.00
22 TY-9456 2/3/2016 5.23
23 TY-9456 2/4/2016 4.12
24 TY-9456 2/5/2016 5.95
25 TY-9456 2/6/2016 6.97
26 TY-9456 2/7/2016 12.45
27 TY-9456 2/8/2016 15.61
28 TY-9456 2/9/2016 15.61
29 TY-9456 2/10/2016 15.61
答案 2 :(得分:0)
您可以排除那些相差0且偏移1天的行:
In [11]: df[(df.Score.diff() != 0) | (df.Date.diff() != pd.offsets.Day().delta)]
Out[11]:
PersonID Date Score
0 AB-123 2016-02-01 0.00
6 AB-123 2016-02-07 67.50
7 AB-123 2016-02-08 73.40
8 AB-123 2016-02-09 70.50
9 AB-123 2016-02-10 68.00
10 DG-3465 2016-02-01 22.50
11 DG-3465 2016-02-02 25.60
12 DG-3465 2016-02-03 36.40
20 TY-9456 2016-02-01 0.00
22 TY-9456 2016-02-03 5.23
23 TY-9456 2016-02-04 4.12
24 TY-9456 2016-02-05 5.95
25 TY-9456 2016-02-06 6.97
26 TY-9456 2016-02-07 12.45
27 TY-9456 2016-02-08 15.61