pandas - 检查数据帧中每个组的条件

时间:2013-10-15 11:21:27

标签: python pandas dataframe

我有一个数据框:

df = pd.DataFrame({'index' : range(8),
'variable1' : ["A","A","B","B","A","B","B","A"],
'variable2' : ["a","b","a","b","a","b","a","b"],
'variable3' : ["x","x","x","y","y","y","x","y"],
'result': [1,0,0,1,1,0,0,1]})

df2 = df.pivot_table(values='result',rows='index',cols=['variable1','variable2','variable3'])
df2['A']['a']['x'][4] = 1
df2['B']['a']['x'][3] = 1

variable1   A               B    
variable2   a       b       a   b
variable3   x   y   x   y   x   y
index                            
0           1 NaN NaN NaN NaN NaN
1         NaN NaN   0 NaN NaN NaN
2         NaN NaN NaN NaN   0 NaN
3         NaN NaN NaN NaN   1   1
4           1   1 NaN NaN NaN NaN
5         NaN NaN NaN NaN NaN   0
6         NaN NaN NaN NaN   0 NaN
7         NaN NaN NaN   1 NaN NaN

现在,我想检查x == 1y == 1的同时发生情况,但仅限于variable1variable2定义的每个子组中。因此,对于上面显示的数据框,index == 4(组A-a)符合条件,但index == 3(组B-aB-b不符合条件。

我认为需要一些groupby()魔法,但我找不到正确的方法。我也尝试过堆叠数据框(使用df.stack()),但这并没有让我更接近......

1 个答案:

答案 0 :(得分:1)

您可以在2个第一级groupbyvariable1上使用variable2来获取该级别的xy列的总和:< / p>

r = df2.groupby(level=[0,1], axis=1).sum()

r
Out[50]: 
variable1   A       B    
variable2   a   b   a   b
index                    
0           1 NaN NaN NaN
1         NaN   0 NaN NaN
2         NaN NaN   0 NaN
3         NaN NaN   1   1
4           2 NaN NaN NaN
5         NaN NaN NaN   0
6         NaN NaN   0 NaN
7         NaN   1 NaN NaN

因此,您要搜索的行是包含值2的行:

r[r==2].dropna(how='all')
Out[53]: 
variable1  A       B    
variable2  a   b   a   b
index                   
4          2 NaN NaN NaN