为什么随机森林的表现比决策树差

时间:2018-05-23 13:23:02

标签: r classification data-mining random-forest decision-tree

我有一个包含1962个观察数据和46个列的数据集。第46列是目标。其他列中的6列是名义变量,其余列是序数变量。我使用如下方式对它们进行了预处理:

for (i in c(1:4,6,9,46)){
    cw_alldata_known[,i] <- as.factor(cw_alldata_known[,i])
}

for (i in c(5,7,8,10:45)){
  cw_alldata_known[,i] <- as.ordered(cw_alldata_known[,i])
}

然后我将他们50/50分成训练和测试集。 我使用party R:

包装了一个决策树
cw.ctree <- ctree(cr~.,data = cw.train)

然后我还安装了随机森林模型:

cw.forest <- randomForest(credit.rating ~ ., data=cw.train,ntree=107)

我尝试了其他ntree值,但107似乎是最好的。 决策树测试集的准确率约为61%,而随机森林仅为56%。我读到随机森林通常更健壮,更可靠。在这种情况下,为什么它不比决策树表现更好?

0 个答案:

没有答案