ValueError:无法将字符串转换为浮点型。插补丢失数据期间

时间:2019-03-17 14:15:27

标签: python pandas machine-learning scikit-learn data-science

我正在研究墨尔本的住房数据集,在预处理过程中,我试图使用均值/中位数策略来估算缺失的数据。 我尝试使用Sklearn.preprocessing中的Imputer。

imp = Imputer( strategy='mean' )
dataset = imp.fit(dataset)

运行此程序时,我遇到此错误。

  

ValueError:无法将字符串转换为float:“ Western Metropolitan”

我知道插补仅在float值中进行,但我需要执行2种操作之一:

1)仅在数据集中估算字符串以外的值

2)用字符串

估算数据

我在网上找不到任何解决方案。 预先感谢。

1 个答案:

答案 0 :(得分:0)

Python不能很好地处理分类变量。您需要对所有类别变量进行虚拟化,以估算缺少的值。即使一列是类别,也会弹出错误。