Caret中每个交叉验证折叠的训练集和测试集的ROC曲线

时间:2017-10-23 11:12:37

标签: r machine-learning cross-validation r-caret roc

在Caret的5倍交叉验证中,是否可以为每个折叠分别设置训练集和测试集的ROC曲线?

library(caret)
train_control <- trainControl(method="cv", number=5,savePredictions =  TRUE,classProbs = TRUE)
output <- train(Species~., data=iris, trControl=train_control, method="rf")

我可以执行以下操作,但我不知道它是否为Fold1的训练集或测试集返回ROC:

library(pROC) 
selectedIndices <- rfmodel$pred$Resample == "Fold1"
plot.roc(rfmodel$pred$obs[selectedIndices],rfmodel$pred$setosa[selectedIndices])

1 个答案:

答案 0 :(得分:3)

对于rfmodel$pred的内容,documentation确实一点都不清楚 - 我敢打赌所包含的预测是用作测试集的折叠,但我不能指出文件中的任何证据;尽管如此,无论如何,你仍然错过了试图获得ROC的方式。

首先,让我们将rfmodel$pred隔离在一个单独的数据框中,以便于处理:

dd <- rfmodel$pred

nrow(dd)
# 450

为什么要450行?这是因为您尝试了3个不同的参数集(在您的情况下只有mtry的3个不同值):

rfmodel$results
# output:
  mtry Accuracy Kappa AccuracySD    KappaSD
1    2     0.96  0.94 0.04346135 0.06519202
2    3     0.96  0.94 0.04346135 0.06519202
3    4     0.96  0.94 0.04346135 0.06519202

和150行X 3设置= 450。

让我们仔细看看rfmodel$pred的内容:

head(dd)

# result:
    pred    obs setosa versicolor virginica rowIndex mtry Resample
1 setosa setosa  1.000      0.000         0        2    2    Fold1
2 setosa setosa  1.000      0.000         0        3    2    Fold1
3 setosa setosa  1.000      0.000         0        6    2    Fold1
4 setosa setosa  0.998      0.002         0       24    2    Fold1
5 setosa setosa  1.000      0.000         0       33    2    Fold1
6 setosa setosa  1.000      0.000         0       38    2    Fold1
  • obs包含真值
  • 三列setosaversicolorvirginica包含为每个类计算的相应概率,每行总计为1 < / LI>
  • pred包含最终预测,即上述三列中具有最大概率的类

如果这是整个故事,你绘制ROC的方式就可以了,即:

selectedIndices <- rfmodel$pred$Resample == "Fold1"
plot.roc(rfmodel$pred$obs[selectedIndices],rfmodel$pred$setosa[selectedIndices])

但这不是整个故事(仅存在450行而不是150行应该已经给出了提示):注意存在名为 mtry 的列;实际上,rfmodel$pred包括所有交叉验证运行的结果(即所有参数设置):

tail(dd)
# result:
         pred       obs setosa versicolor virginica rowIndex mtry Resample
445 virginica virginica      0      0.004     0.996      112    4    Fold5
446 virginica virginica      0      0.000     1.000      113    4    Fold5
447 virginica virginica      0      0.020     0.980      115    4    Fold5
448 virginica virginica      0      0.000     1.000      118    4    Fold5
449 virginica virginica      0      0.394     0.606      135    4    Fold5
450 virginica virginica      0      0.000     1.000      140    4    Fold5

这是您的selectedIndices计算不正确的最终原因;它还应该包括mtry的特定选择,否则ROC没有任何意义,因为它&#34;聚合&#34;不止一个型号:

selectedIndices <- rfmodel$pred$Resample == "Fold1" & rfmodel$pred$mtry == 2

-

正如我在开头所说,我打赌rfmodel$pred中的预测是作为测试集的文件夹;实际上,如果我们手动计算精度,它们与上面显示的rfmodel$results中报告的一致(所有3个设置均为0.96),我们知道这些文件夹用作 test (可以说是,各自的训练准确度为1.0):

for (i in 2:4) {  # mtry values in {2, 3, 4}

acc = (length(which(dd$pred == dd$obs & dd$mtry==i & dd$Resample=='Fold1'))/30 +
    length(which(dd$pred == dd$obs & dd$mtry==i & dd$Resample=='Fold2'))/30 +
    length(which(dd$pred == dd$obs & dd$mtry==i & dd$Resample=='Fold3'))/30 +
    length(which(dd$pred == dd$obs & dd$mtry==i & dd$Resample=='Fold4'))/30 +
    length(which(dd$pred == dd$obs & dd$mtry==i & dd$Resample=='Fold5'))/30
)/5

print(acc) 
}

# result:
[1] 0.96
[1] 0.96
[1] 0.96