python / scikit中的分类变量的插补

时间:2018-03-28 21:07:15

标签: scikit-learn

我有一个包含23列分类字符串变量的csv文件,即性别,位置,技能组等。

其中一些列缺少值。没有列丢失超过20%的数据,所以我想归咎于缺少的分类变量。

这可能吗?

我试过了     来自sklearn_pandas import CategoricalImputer

imputer=CategoricalImputer(strategy='most_frequent', axis=1)
imputer.fit(df[["Permission", "Hope"]])
imputer.transform(df)  

但我收到此错误:     NameError:name' categoricalImputer'未定义

在我可以归咎之前,我是否必须将23列中的每一列热插入到整数中? 或者是否可以归咎于缺少分类字符串变量?

1 个答案:

答案 0 :(得分:2)

CategoricalImputer仅在版本0.20中引入。因此请使用pip install git+git://github.com/scikit-learn/scikit-learn.git进行更新,或查看github问题https://github.com/scikit-learn/scikit-learn/issues/10579