Question

有人可以帮我理解如何处理新/未见数据中的缺失值吗？我在R中研究了一些多个插补包，所有这些都只是为了训练和测试集（同时）。那么你如何处理新的未标记数据以与训练/测试相同的方式进行估算？基本上，我想对训练/测试集中的缺失值使用多个插补，并且对预测器数据也使用相同的模型/方法。根据我对多重插补（非专家）的研究，用MI做这个似乎不太可行？但是，例如，使用插入符号，您可以轻松使用训练/测试中用于新数据的相同模型。任何帮助将不胜感激。感谢。

**编辑

基本上，我的数据集包含许多缺失值。删除不是一个选项，因为它将丢弃我的大部分火车/测试集。到目前为止，我已经编码了分类变量，删除了近零方差和高相关变量。在这个预处理之后，我能够轻松地应用鼠标包进行插补

m=mice(sg.enc)

此时，我可以使用pool命令将模型应用于插补数据集。这很好。但是，我知道未来的数据会有缺失的值，并希望以某种方式逐步应用这个MI？

Answer 1

它没有多重插补，但是yaImpute包有一个predict（）函数来估算新数据的值。我使用训练数据（包括NA）进行测试以创建“yai”对象，然后通过predict（）使用该对象来估算新测试数据集中的值。与Caret preProcess（）不同，yaImpute在其knn算法中支持因子变量（至少为它们输入值）。我还没有测试因子是否可以成为缺失目标变量“预测因子”的一部分。除了knn之外，yaImpute还支持其他插补方法。

新/预测数据的多重插补

1 个答案: