dtype比较:==和isin对于“对象”产生不同的结果

时间:2019-06-06 21:28:18

标签: python pandas

最小示例:

df = pd.DataFrame({'x': ['a', 'b', 'c'], 'y': [1, 2, 3], 'z': ['d', 'e', 'f']})
df

   x  y  z
0  a  1  d
1  b  2  e
2  c  3  f

df.dtypes

x    object
y     int64
z    object
dtype: object

这个想法是要过滤掉object类型的列。我知道可以使用select_dtypes来做到这一点,这个问题的动机是研究我要向您展示的内容背后的怪异行为。

==(因此,.eq)用于比较特定类型。

df.dtypes == object

x     True
y    False
z     True
dtype: bool

但是,isin不会:

df.dtypes.isin([object])
df.dtypes.isin(['object'])

x    False
y    False
z    False
dtype: bool

OTOH,创建一个np.dtype对象并传递

df.dtypes.isin([np.dtype('O')])

x     True
y    False
z     True
dtype: bool

np.isin在这里起作用,因此没有理由使其表现有所不同。

np.isin(df.dtypes, object)
array([ True, False,  True])

np.isin(df.dtypes, 'object')
array([ True, False,  True])

isin似乎在仅检查对象类型时引起麻烦。 df.dtypes.isin(['int'])给出了预期的结果。

请注意,我正在0.24上运行这些测试。

pd.__version__
'0.24.2'

这是错误还是预期的行为?

1 个答案:

答案 0 :(得分:6)

这归结为pandas.Series.isin依赖于哈希表in this case,而在0.20.3中,它本可以沿着不同的代码路径使用np.in1d depending on your version of python/numpy

请注意,np.dtype('O')object的哈希值不同,这说明了当前的失败:

In [2]: hash(np.dtype('O'))
Out[2]: 7065344498483383396

In [3]: hash(object)
Out[3]: 108607961

似乎np.in1d对对象执行了direct equality comparisons,并且object的定义与'object' / np.dtype('O')的相等性独立于哈希

这也说明了isin对于大熊猫的更大问题:相等比较但具有不同哈希值的对象将在小输入情况下失败isin。考虑以下课程:

class Foo(object):
    def __init__(self, hash_val):
        self.hash_val = hash_val

    def __hash__(self):
        return self.hash_val

    def __eq__(self, other):
        return isinstance(other, Foo)

然后我们得到:

In [5]: s = pd.Series([Foo(0), Foo(1), Foo(2)])

In [6]: s == Foo(3)
Out[6]:
0    True
1    True
2    True
dtype: bool

In [7]: s.isin([Foo(3)])
Out[7]:
0    False
1    False
2    False
dtype: bool

In [8]: np.in1d(s.values, [Foo(3)])
Out[8]: array([ True,  True,  True])

这是一个错误吗?可能吧,但是我猜想这将是一个低优先级的问题,因为这是一个极端的情况,而且可能不太容易以高效的方式进行修复(即,当前实现中有一条注释表明该对象dtypes不应传递给np.in1d,因为它可能会引起问题,因此仅委托给np.in1d是行不通的。