预测缺少预测变量的新实例

时间:2017-10-05 16:51:07

标签: machine-learning prediction

我有一个(可能是愚蠢的)关于预测缺少预测变量的新实例的问题。

我收到了一份数据。让我们说我预处理,清理数据,结果,让我们说,剩下10个预测因子。然后,我在结果数据上训练我的模型,所以我准备使用模型进行预测。

现在,如果我想预测缺少1个或2个预测变量的新实例,我该怎么办?

1 个答案:

答案 0 :(得分:1)

至少有两种合理的解决方案。

(1)根据非缺失变量的值,对输出的缺失变量的可能值进行平均。也就是说,计算每个可能的丢失值的输出预测的加权平均值(丢失,未丢失),通过给定非缺失的丢失概率加权。这基本上是文献中所谓的“多重插补”。

首先要尝试的是通过无条件分配失踪来加权。如果这看起来太复杂,那么非常粗略的近似就是将缺失的平均值替换为预测。

(2)为每个组合变量建立一个模型。如果你有n个变量,这意味着构建2 ^ n个变量。如果n = 10,那么现在1024个型号并不是什么大不了的事。然后,如果您缺少某些变量,只需将模型用于存在的变量。

顺便说一下,你可能会对stats.stackexchange.com上的这个问题更感兴趣。