Question

我有一个包含23列分类字符串变量的csv文件，即性别，位置，技能组等。

其中一些列缺少值。没有列丢失超过20％的数据，所以我想归咎于缺少的分类变量。

这可能吗？

我试过了来自sklearn_pandas import CategoricalImputer

imputer=CategoricalImputer(strategy='most_frequent', axis=1)
imputer.fit(df[["Permission", "Hope"]])
imputer.transform(df)

但我收到此错误： NameError：name＆＃39; categoricalImputer＆＃39;未定义

在我可以归咎之前，我是否必须将23列中的每一列热插入到整数中？或者是否可以归咎于缺少分类字符串变量？

Answer 1

CategoricalImputer仅在版本0.20中引入。因此请使用pip install git+git://github.com/scikit-learn/scikit-learn.git进行更新，或查看github问题https://github.com/scikit-learn/scikit-learn/issues/10579