来自RandomForest的R意外NA输出

时间:2012-04-28 21:13:44

标签: r random-forest na

我正在使用具有大量NA的数据集。我知道前6列没有任何NA。由于第一列是ID列,我省略了它。

我运行以下代码,仅选择响应列中包含值的行:

sub1 <- TrainingData[which(!is.na(TrainingData[,70])),]

然后我使用此代码将random1用作randomForest中的数据集:

set.seed(448)
RF <- randomForest(sub1[,c(2:6)], sub1[,70]
    ,do.trace=TRUE,importance=TRUE,ntree=10,,forest=TRUE)

然后我运行此代码来检查NA的输出:

> length(which(is.na(RF$predicted)))
[1] 65

如果输入的数据干净,我无法弄清楚为什么我会得到NA。

有什么建议吗?

1 个答案:

答案 0 :(得分:5)

我认为你应该使用更多的树木。因为predicted值是out-of-bag集的前缀。如果树的数量非常小,有些情况永远不会出现在袋外集中,因为这个集随机形成。