我有一个数据集d
,其中包含不同形式的缺失值:
d = {'col1': [1, 2, '', 'N/A', 'unknown', None],
'col2': [3, 4, 'N/A', None, 'N/A_N/A', '']}
d = pd.DataFrame(data=d)
col1 col2
0 1 3
1 2 4
2 N/A
3 N/A None
4 unknown N/A_N/A
5 None
我想看看实际上每列中缺少多少个值。因此,我想将所有空白,n / a和未知数转换为None
。我尝试了这段代码,并得到以下结果:
d.replace(to_replace =['N/A', '', 'unknown', 'N/A_N/A'],
value = None)
col1 col2
0 1 3
1 2 4
2 2 4
3 2 None
4 2 None
5 None None
我不明白为什么d.replace
这样做,有人能更好地解决我的问题吗?我希望它像:
col1 col2
0 1 3
1 2 4
2 None None
3 None None
4 None None
5 None None
答案 0 :(得分:4)
This is known behaviour,并且只要目标替换值为None
就会发生。可以说,状态是设计如何处理参数的结果。
我可以建议to_numeric
吗?
pd.to_numeric(df.stack(), errors='coerce').unstack()
col1 col2
0 1.0 3.0
1 2.0 4.0
2 NaN NaN
3 NaN NaN
4 NaN NaN
5 NaN NaN
或者,如果您将字典传递给replace
,则您的代码有效。
# df.replace({'': None, 'N/A': None, 'N/A_N/A': None, 'unknown': None})
df.replace(dict.fromkeys(['N/A', '', 'unknown', 'N/A_N/A'], None))
col1 col2
0 1.0 3.0
1 2.0 4.0
2 NaN NaN
3 NaN NaN
4 NaN NaN
5 NaN NaN