groupby并在熊猫中选择

时间:2015-02-17 19:02:41

标签: select pandas group-by

我正在尝试根据更改列删除表格中的某些行。

id  subindex    change
A1      1           0
A1      2           1
A1      3           12
A1      4           0
A1      5           15
A1      6           1
A2      1           0
A2      2           11
A2      3           1
A2      4           0   

在子组中(Id相同)当更改大于10时,我想删除后续行。所以表格是:

 id subindex    change
A1      1           0
A1      2           1
A2      1           0

我所做的是用于识别应该切割子表的位置的组:

df['cut_position']=df[df.change >= 10].groupby('id')['subindex'].transform(lambda x: x.min())

给出:

id  subindex    change      cut_position
A1      1           0           0
A1      2           1           0
A1      3           12          3
A1      4           0           0
A1      5           15          0
A1      6           1           0   
A2      1           0           0
A2      2           11          2
A2      3           1           0
A2      4           0           0

然后groupby('id')应该很容易做到,但是我在尝试获取该表时遇到了问题:

id  subindex    change      cut_position
A1      1           0           0
A1      2           1           0
A1      3           12          ToRemove_3
A1      4           0           ToRemove_0
A1      5           15          ToRemove_0
A1      6           1           ToRemove_0  
A2      1           0           0
A2      2           11          ToRemove_2
A2      3           1           ToRemove_0
A2      4           0           ToRemove_0

在编写可以生成表的代码时,我得到:

df.groupby('id')[df['subindex'] >= df['cut_position'].max()].map(lambda x : 'ToRemove_' + x)

KeyError:'找不到列:False,True'

注意:我做了一些有用的事情,但这花了太多时间来做...

1 个答案:

答案 0 :(得分:2)

对这种方法不是100%满意,但你可以尝试一下。

鉴于你的框架

id  subindex    change
A1      1           0
A1      2           1
A1      3           12
A1      4           0
A1      5           15
A1      6           1
A2      1           0
A2      2           11
A2      3           1
A2      4           0 

然后创建一个框架,每个'id'的第一行大于10

rowindex = df['change'] > 10
greaterThan10 = df[rowindex].groupby('id',as_index=False).first()

比原始帧的merge()和greaterThan10

dfKeep = pd.merge(df,greaterThan10,how='left',on=['id'],suffixes=['','_cut'])

然后过滤'keepers'的新框架

mask = (dfKeep['subindex'] < dfKeep['subindex_cut']) 
dfKeep[mask][['id','subindex','change']]

给你

    id  subindex    change
0   A1  1           0
1   A1  2           1
6   A2  1           0