当我使用时:
df = data2analyse.loc[data2analyse.bool_var1 | data2analyse.bool_var2 |
data2analyse.bool_var3, 'some column']
正常工作。但是,如果我使用
df = data2analyse.loc[data2analyse.bool_var1 is True | data2analyse.bool_var2 is True |
data2analyse.bool_var3 is True, 'some column']
引发KeyError: False
例外。另外,如果我使用
df = data2analyse.loc[data2analyse.bool_var1 == True | data2analyse.bool_var2 == True |
data2analyse.bool_var3 == True, 'some column']
加注:ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().
.loc
内容中这些注释之间的区别是什么?错误的原因是什么?
答案 0 :(得分:2)
在这种情况下,您不应该使用is
运算符,因为is
会告诉您它是否是同一个对象,即两个对象的id()
是否相等。
In [43]: df
Out[43]:
a b c
0 False False False
1 True True True
2 True False False
3 False True False
4 True False False
In [44]: id(True)
Out[44]: 497422000
In [45]: id(False)
Out[45]: 497422032
In [46]: id(df.a)
Out[46]: 150038344
In [47]: df.a is True
Out[47]: False
In [48]: df.a is False
Out[48]: False
In [49]: df.a == False
Out[49]:
0 True
1 False
2 False
3 True
4 False
Name: a, dtype: bool
像(==
,!=
等)的运算符被覆盖了pandas对象 - 这就是最后一个语句正常工作的原因
所以你应该这样做:
In [50]: df.a | df.b | df.c
Out[50]:
0 False
1 True
2 True
3 True
4 True
dtype: bool
In [51]: (df.a == True) | (df.b == True) | (df.c == True)
Out[51]:
0 False
1 True
2 True
3 True
4 True
dtype: bool
或者你可以这样做(作为:df.a | df.b | df.c
的替代方案):
In [55]: df.any(axis=1)
Out[55]:
0 False
1 True
2 True
3 True
4 True
dtype: bool
或者这(作为df.a & df.b & df.c
的替代方案):
In [56]: df.all(axis=1)
Out[56]:
0 False
1 True
2 False
3 False
4 False
dtype: bool