新/预测数据的多重插补

时间:2014-10-05 18:12:08

标签: r missing-data

有人可以帮我理解如何处理新/未见数据中的缺失值吗?我在R中研究了一些多个插补包,所有这些都只是为了训练和测试集(同时)。那么你如何处理新的未标记数据以与训练/测试相同的方式进行估算?基本上,我想对训练/测试集中的缺失值使用多个插补,并且对预测器数据也使用相同的模型/方法。根据我对多重插补(非专家)的研究,用MI做这个似乎不太可行?但是,例如,使用插入符号,您可以轻松使用训练/测试中用于新数据的相同模型。任何帮助将不胜感激。感谢。

**编辑

基本上,我的数据集包含许多缺失值。删除不是一个选项,因为它将丢弃我的大部分火车/测试集。到目前为止,我已经编码了分类变量,删除了近零方差和高相关变量。在这个预处理之后,我能够轻松地应用鼠标包进行插补

m=mice(sg.enc)

此时,我可以使用pool命令将模型应用于插补数据集。这很好。但是,我知道未来的数据会有缺失的值,并希望以某种方式逐步应用这个MI?

1 个答案:

答案 0 :(得分:0)

它没有多重插补,但是yaImpute包有一个predict()函数来估算新数据的值。我使用训练数据(包括NA)进行测试以创建“yai”对象,然后通过predict()使用该对象来估算新测试数据集中的值。与Caret preProcess()不同,yaImpute在其knn算法中支持因子变量(至少为它们输入值)。我还没有测试因子是否可以成为缺失目标变量“预测因子”的一部分。除了knn之外,yaImpute还支持其他插补方法。