使用插入符构建随机森林模型时遇到问题。我有一个大约46k行和10列的数据集(其中一个是优化目标)。从这个数据集中,我试图比较不同的分类器。我做了以下事情:
ctrl = trainControl(method="boot"
,classProbs=TRUE
,summaryFunction=twoClassSummary )
#GLM Model:
model.glm = train(x=d[,2:10]
,y=d$CONV_BT, method='glm'
,trControl=ctrl, metric="ROC"
,family="binomial")
#Random Forest Model:
model.rf = train(x=d[,2:10]
,y=d$CONV_BT, method='rf'
,trControl=ctrl, metric="ROC")
#Naive Bayes Model:
model.nb = train(x=d[,2:10]
,y=d$CONV_BT, method='nb'
,trControl=ctrl, metric="ROC" )
然后,model.glm和model.nb看起来都很不错。我可以看一下25个bootstrap复制,每个案例的ROC约为.7。但是,model.rf似乎有些问题,因为报告的ROC分数都在.3。这告诉我,某些事情被错误地指定,因为我可以将我的预测从rf模型从p切换到1-p,然后我的ROC将是.7,对吗?
我很抱歉我无法提供数据(因为它上传非常大并且是专有的)。另一个奇怪的事情是,当我模拟数据时,我不再有这个问题。知道这可能是什么???谢谢你的帮助!