我有一个数据框,我复制了它。在副本上,我将所有NA替换为-99999,原始版本保持不变。当我在它们上面使用相同的describe()函数时,我会得到非常不同的结果。我很高兴有人可以解释在这个编码的后台发生了什么。 此外,当我绘制图表时,-99999没有出现,这让我觉得没有NA可以开始。我很困惑。
以下是代码:
df1 = df.copy()
df1['price'].fillna(-99999, inplace = True) # replace NA data with -99999
df['price'].describe()
df1['price'].describe()
各自的结果是:
df['price'].describe()
Out[126]:
count 16869745.0
unique 7305.0
top 40.0
freq 26098.0
Name: price, dtype: float64
和
df1['price'].describe()
Out[127]:
count 1.686974e+07
mean 3.191416e+01
std 1.165290e+01
min 1.000000e+00
25% 1.999000e+01
50% 3.529000e+01
75% 4.077000e+01
max 5.411000e+01
Name: price, dtype: float64