我注意到将NaN值列表转换为集合时出现问题:
import pandas as pd
import numpy as np
x = pd.DataFrame({'a':[None,None]})
x_numeric = pd.to_numeric(x['a']) #converts to numpy.float64
set(x_numeric)
这应该返回{nan}但是返回{nan,nan}。但是,这样做:
set([numpy.nan, numpy.nan])
返回预期的{nan}。前者显然是类numpy.float64,而后者默认是类float。
知道为什么set()不能用于numpy.float64 NaN值吗?我正在使用Pandas版本0.18和Numpy版本1.10.4。
答案 0 :(得分:7)
float64数组中的NaNs并不指向内存中与np.NaN相同的空间(它们与数组中的每个其他数字一样,数组中有8个字节)。当我们采用id
:
In [11]: x_numeric
Out[11]:
0 NaN
1 NaN
Name: a, dtype: float64
In [12]: x_numeric.apply(id)
Out[12]:
0 4657312584
1 4657312536
Name: a, dtype: int64
In [13]: id(np.nan)
Out[13]: 4535176264
In [14]: id(np.nan)
Out[14]: 4535176264
这是一种python“gotcha”,这种情况发生了,因为它是一个优化(在检查set equality python之前检查它是否是同一个对象:在内存中有相同的id
/位置):
In [21]: s = set([np.nan])
In [22]: np.nan in s
Out[22]: True
In [23]: x_numeric.apply(lambda x: x in s)
Out[23]:
0 False
1 False
Name: a, dtype: bool
它是“陷阱”的原因是因为与大多数物体不同,NaN不等于它自己:
In [24]: np.nan == np.nan
Out[24]: False
答案 1 :(得分:2)
Numpy在这里是一个红色的鲱鱼 - np.nan
只是float('nan')
的名称,它显示了同样的问题:
>>> a = float('nan')
>>> b = float('nan')
>>> {a, b}
{nan, nan}
>>> {a, a}
{nan}
正如Andy所说,这是关于在检查集合成员资格时在x is y
之前尝试x == y
的设置平等。