我有一个非常大的Pandas DataFrame,如下所示:
>>> d = pd.DataFrame({"a": ["1", "U", "3.4"]})
>>> d
a
0 1
1 U
2 3.4
目前,该列设置为object
:
>>> d.dtypes
a object
dtype: object
我想将此列转换为float,以便我可以使用groupby()
并计算均值。当我使用astype
尝试时,我正确地得到一个错误,因为无法转换为float的字符串:
>>> d.a.astype(float)
ValueError: could not convert string to float: 'U'
我想做的是将所有元素转换为float,然后替换那些不能由NaN转换的元素。
我该怎么做?
我尝试设置raise_on_error
,但它不起作用,dtype
仍为object
。
>>> d.a.astype(float, raise_on_error=False)
0 1
1 U
2 3.4
Name: a, dtype: object
答案 0 :(得分:4)
使用to_numeric
并指定errors='coerce'
以强制无法解析为数字值的字符串变为NaN
:
>>> pd.to_numeric(d['a'], errors='coerce')
0 1.0
1 NaN
2 3.4
Name: a, dtype: float64