处理没有数据值

时间:2015-06-30 14:59:24

标签: scikit-learn

在学习过程中,我的所有功能都没有'0'值;所以我成功制作了我的SVM模型。

但是,当我使用该模型对我的特征进行预测时,在样本的某个位置具有“0”值。 '0'不是数据值。如何在预测期间处理无数据值。我可以在学习期间做出反应。但是如果我在预测期间没有删除任何数据值,那么我将在这些样本位置中丢失预测结果。

在这些样本点中,并非所有特征都无效,但有些特征是无效的。 任何建议表示赞赏。

1 个答案:

答案 0 :(得分:1)

如果某些数据值是NaN,那么您需要一个imputer来估算这些缺失值。一般策略是使用' mean'或者'中位数'替换战略。

from sklearn.preprocessing import Imputer
imputer = Imputer(strategy='mean')
X_data = imputer.fit_transform(X_data_with_missing_values)

然后,您可以使用此推算的SVM来填充X_data