我正在研究墨尔本的住房数据集,在预处理过程中,我试图使用均值/中位数策略来估算缺失的数据。 我尝试使用Sklearn.preprocessing中的Imputer。
imp = Imputer( strategy='mean' )
dataset = imp.fit(dataset)
运行此程序时,我遇到此错误。
ValueError:无法将字符串转换为float:“ Western Metropolitan”
我知道插补仅在float值中进行,但我需要执行2种操作之一:
1)仅在数据集中估算字符串以外的值
2)用字符串
估算数据我在网上找不到任何解决方案。 预先感谢。
答案 0 :(得分:0)
Python不能很好地处理分类变量。您需要对所有类别变量进行虚拟化,以估算缺少的值。即使一列是类别,也会弹出错误。