这甚至可能吗?我有一个培训数据集,其中包括大约1500个条目。 randomForest创建了它的决策规则并将它们应用于随机选择的(来自原始数据集)Out of Bag训练样本(自举10,000次)。我有一个单独的(未分类的)数据集,我想应用10,000个创建的树来预测这些新条目的分类。有没有一种简单的方法可以将基础林树索引到这个新的未分类数据集?
答案 0 :(得分:3)
看看Max Kuhn的caret,它的目的是为了支持分类和回归训练。
它包含Random Forest以及许多其他包,并且包含大量文档,包括JSS paper。
除了插入符号之外,您当然可以在返回的模型上使用predict
方法,如帮助页面中的示例所示:
data(iris)
set.seed(111)
ind <- sample(2, nrow(iris), replace = TRUE, prob=c(0.8, 0.2))
iris.rf <- randomForest(Species ~ ., data=iris[ind == 1,])
iris.pred <- predict(iris.rf, iris[ind == 2,])
table(observed = iris[ind==2, "Species"], predicted = iris.pred)
不是使用ind
的随机样本,而是将数据自己集中到训练和验证集中。