使用带有ROC的插入符号中的randomForest作为优化度量标准时的问题

时间:2013-05-21 18:19:10

标签: r machine-learning classification random-forest roc

使用插入符构建随机森林模型时遇到问题。我有一个大约46k行和10列的数据集(其中一个是优化目标)。从这个数据集中,我试图比较不同的分类器。我做了以下事情:

ctrl = trainControl(method="boot"
  ,classProbs=TRUE
  ,summaryFunction=twoClassSummary )

#GLM Model:
model.glm = train(x=d[,2:10]
  ,y=d$CONV_BT, method='glm'
  ,trControl=ctrl, metric="ROC"
  ,family="binomial")

#Random Forest Model:
model.rf = train(x=d[,2:10]
  ,y=d$CONV_BT, method='rf'
  ,trControl=ctrl, metric="ROC")

#Naive Bayes Model:
model.nb = train(x=d[,2:10]
  ,y=d$CONV_BT, method='nb'
  ,trControl=ctrl, metric="ROC" )

然后,model.glm和model.nb看起来都很不错。我可以看一下25个bootstrap复制,每个案例的ROC约为.7。但是,model.rf似乎有些问题,因为报告的ROC分数都在.3。这告诉我,某些事情被错误地指定,因为我可以将我的预测从rf模型从p切换到1-p,然后我的ROC将是.7,对吗?

我很抱歉我无法提供数据(因为它上传非常大并且是专有的)。另一个奇怪的事情是,当我模拟数据时,我不再有这个问题。知道这可能是什么???谢谢你的帮助!

0 个答案:

没有答案