Scikit-learn Imputer Reducing Dimensions

时间:2016-08-11 15:10:23

标签: python scikit-learn

我有一个包含332列的数据框。我想将值归结为能够使用scikit-learn的决策树分类器。我的问题是来自imputer函数的结果数据列只有330.

from sklearn.preprocessing import Imputer
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
cols = data.columns
new = imp.fit_transform(data)

print(data.shape,new.shape)
(34132, 332) (34132, 330)

1 个答案:

答案 0 :(得分:3)

根据documentation of sklearn.preprocessing.Imputer

  

当axis = 0时,在变换时将丢弃仅包含缺失值的列。

因此,这是删除所有缺失值列。