我有一个包含1962个观察数据和46个列的数据集。第46列是目标。其他列中的6列是名义变量,其余列是序数变量。我使用如下方式对它们进行了预处理:
for (i in c(1:4,6,9,46)){
cw_alldata_known[,i] <- as.factor(cw_alldata_known[,i])
}
for (i in c(5,7,8,10:45)){
cw_alldata_known[,i] <- as.ordered(cw_alldata_known[,i])
}
然后我将他们50/50分成训练和测试集。
我使用party
R:
cw.ctree <- ctree(cr~.,data = cw.train)
然后我还安装了随机森林模型:
cw.forest <- randomForest(credit.rating ~ ., data=cw.train,ntree=107)
我尝试了其他ntree
值,但107似乎是最好的。
决策树测试集的准确率约为61%,而随机森林仅为56%。我读到随机森林通常更健壮,更可靠。在这种情况下,为什么它不比决策树表现更好?