在输入向量中传递NAN以进行预测

时间:2016-11-18 09:36:12

标签: python numpy machine-learning scikit-learn

我有一个使用给定输入训练数据向量训练的分类器。训练数据中缺少值,这些值填充为numpy.Nan值和使用imputers填写缺失值。

但是,如果我的输入矢量用于预测,我如何传入缺少值的输入?我应该把这个值传递给nan吗? imputer是否在这方面起作用。?

如果我必须手动填写数值,如何填写此类情况的值,我需要从现有数据中计算平均值/中位数/频率。

注意:我正在使用sklearn。

1 个答案:

答案 0 :(得分:0)

您不能使用NaN值,因为输入矢量将与权重矩阵相乘。需要定义此类操作的结果。

如果输入数据中存在间隙,通常会执行的操作取决于数据的具体类型和结构,填补空白" artificial"值。例如,您可以在剩余的训练数据实例中使用同一列的均值或中位数。