我正在使用具有大量NA的数据集。我知道前6列没有任何NA。由于第一列是ID列,我省略了它。
我运行以下代码,仅选择响应列中包含值的行:
sub1 <- TrainingData[which(!is.na(TrainingData[,70])),]
然后我使用此代码将random1用作randomForest中的数据集:
set.seed(448)
RF <- randomForest(sub1[,c(2:6)], sub1[,70]
,do.trace=TRUE,importance=TRUE,ntree=10,,forest=TRUE)
然后我运行此代码来检查NA的输出:
> length(which(is.na(RF$predicted)))
[1] 65
如果输入的数据干净,我无法弄清楚为什么我会得到NA。
有什么建议吗?
答案 0 :(得分:5)
我认为你应该使用更多的树木。因为predicted
值是out-of-bag集的前缀。如果树的数量非常小,有些情况永远不会出现在袋外集中,因为这个集随机形成。