应用错误收集

我有一个包含1962个观察数据和46个列的数据集。第46列是目标。其他列中的6列是名义变量，其余列是序数变量。我使用如下方式对它们进行了预处理：

for (i in c(1:4,6,9,46)){
    cw_alldata_known[,i] <- as.factor(cw_alldata_known[,i])
}

for (i in c(5,7,8,10:45)){
  cw_alldata_known[,i] <- as.ordered(cw_alldata_known[,i])
}

然后我将他们50/50分成训练和测试集。我使用party R：

包装了一个决策树

cw.ctree <- ctree(cr~.,data = cw.train)

然后我还安装了随机森林模型：

cw.forest <- randomForest(credit.rating ~ ., data=cw.train,ntree=107)

我尝试了其他ntree值，但107似乎是最好的。决策树测试集的准确率约为61％，而随机森林仅为56％。我读到随机森林通常更健壮，更可靠。在这种情况下，为什么它不比决策树表现更好？

为什么随机森林的表现比决策树差

0 个答案: