Question

使用插入符构建随机森林模型时遇到问题。我有一个大约46k行和10列的数据集（其中一个是优化目标）。从这个数据集中，我试图比较不同的分类器。我做了以下事情：

ctrl = trainControl(method="boot"
  ,classProbs=TRUE
  ,summaryFunction=twoClassSummary )

#GLM Model:
model.glm = train(x=d[,2:10]
  ,y=d$CONV_BT, method='glm'
  ,trControl=ctrl, metric="ROC"
  ,family="binomial")

#Random Forest Model:
model.rf = train(x=d[,2:10]
  ,y=d$CONV_BT, method='rf'
  ,trControl=ctrl, metric="ROC")

#Naive Bayes Model:
model.nb = train(x=d[,2:10]
  ,y=d$CONV_BT, method='nb'
  ,trControl=ctrl, metric="ROC" )

然后，model.glm和model.nb看起来都很不错。我可以看一下25个bootstrap复制，每个案例的ROC约为.7。但是，model.rf似乎有些问题，因为报告的ROC分数都在.3。这告诉我，某些事情被错误地指定，因为我可以将我的预测从rf模型从p切换到1-p，然后我的ROC将是.7，对吗？

我很抱歉我无法提供数据（因为它上传非常大并且是专有的）。另一个奇怪的事情是，当我模拟数据时，我不再有这个问题。知道这可能是什么???谢谢你的帮助！

使用带有ROC的插入符号中的randomForest作为优化度量标准时的问题

0 个答案: