我有一个包含23列分类字符串变量的csv文件,即性别,位置,技能组等。
其中一些列缺少值。没有列丢失超过20%的数据,所以我想归咎于缺少的分类变量。
这可能吗?
我试过了 来自sklearn_pandas import CategoricalImputer
imputer=CategoricalImputer(strategy='most_frequent', axis=1)
imputer.fit(df[["Permission", "Hope"]])
imputer.transform(df)
但我收到此错误: NameError:name' categoricalImputer'未定义
在我可以归咎之前,我是否必须将23列中的每一列热插入到整数中? 或者是否可以归咎于缺少分类字符串变量?
答案 0 :(得分:2)
CategoricalImputer
仅在版本0.20
中引入。因此请使用pip install git+git://github.com/scikit-learn/scikit-learn.git
进行更新,或查看github问题https://github.com/scikit-learn/scikit-learn/issues/10579