列索引器(Pandas)中的布尔表达式''运算符不起作用

时间:2016-06-30 17:50:16

标签: python python-2.7 pandas indexing

当我使用时:

df = data2analyse.loc[data2analyse.bool_var1 | data2analyse.bool_var2 |
                          data2analyse.bool_var3, 'some column']

正常工作。但是,如果我使用

df = data2analyse.loc[data2analyse.bool_var1 is True | data2analyse.bool_var2 is True |
                          data2analyse.bool_var3 is True, 'some column']

引发KeyError: False例外。另外,如果我使用

df = data2analyse.loc[data2analyse.bool_var1 == True | data2analyse.bool_var2 == True |
                              data2analyse.bool_var3 == True, 'some column']

加注:ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

.loc内容中这些注释之间的区别是什么?错误的原因是什么?

1 个答案:

答案 0 :(得分:2)

在这种情况下,您不应该使用is运算符,因为is会告诉您它是否是同一个对象,即两个对象的id()是否相等。

In [43]: df
Out[43]:
       a      b      c
0  False  False  False
1   True   True   True
2   True  False  False
3  False   True  False
4   True  False  False

In [44]: id(True)
Out[44]: 497422000

In [45]: id(False)
Out[45]: 497422032

In [46]: id(df.a)
Out[46]: 150038344

In [47]: df.a is True
Out[47]: False

In [48]: df.a is False
Out[48]: False

In [49]: df.a == False
Out[49]:
0     True
1    False
2    False
3     True
4    False
Name: a, dtype: bool

像(==!=等)的运算符被覆盖了pandas对象 - 这就是最后一个语句正常工作的原因

所以你应该这样做:

In [50]: df.a | df.b | df.c
Out[50]:
0    False
1     True
2     True
3     True
4     True
dtype: bool

In [51]: (df.a == True) | (df.b == True) | (df.c == True)
Out[51]:
0    False
1     True
2     True
3     True
4     True
dtype: bool

或者你可以这样做(作为:df.a | df.b | df.c的替代方案):

In [55]: df.any(axis=1)
Out[55]:
0    False
1     True
2     True
3     True
4     True
dtype: bool

或者这(作为df.a & df.b & df.c的替代方案):

In [56]: df.all(axis=1)
Out[56]:
0    False
1     True
2    False
3    False
4    False
dtype: bool