我们基本上可以使用missForest包来输入R中的缺失值(对于分类和数字)。但是这种方法需要一个完整的响应变量来训练森林。那么,如何使用这个missForest包来测试测试数据集中的缺失值,因为我们在测试数据集中没有任何响应变量?
答案 0 :(得分:1)
你可以使用missForest。不需要响应变量。请参阅下面的代码。
library(missForest)
# remove response variable
my_iris <- iris[, -5]
## Artificially produce missing values using the 'prodNA' function:
set.seed(81)
iris.mis <- prodNA(my_iris, noNA = 0.2)
#impute
iris.imp <- missForest(iris.mis, verbose = TRUE)
#out of bag error
iris.imp$OOBerror
# not available if there is no response variable
iris.imp$error
# Imputed matrix
iris.imp$ximp