嵌套交叉验证或仅使用Rpart

时间:2019-05-21 16:04:43

标签: r nested cross-validation rpart

我对两个概念感到困惑:决策树模型Rpart(基于对训练数据执行10倍CV后的测试数据)的评估,而不是“嵌套交叉验证”。这些都一样吗?

我做了什么

我已将数据分为训练集(训练)和测试集(测试)。我已经在Train集合的R中执行了Rpart函数,该函数进行了10倍交叉验证。之后,我通过估计测试集上的AUC(接收器工作曲线下的面积)来评估模型。 同样,我已经完成了逻辑回归的这些步骤。比较了决策树的AUC和Logistic回归。

嵌套交叉验证

现在,有专家问我交叉验证方案是否正确嵌套。查找嵌套的交叉验证,我理解如下:

  1. 内部循环:对训练数据执行(k倍)交叉验证以选择模型(例如,表示特征选择,多项式度?),
  2. 外循环:对训练+测试集(旋转测试集)再次执行(k倍)交叉验证,以选择最佳模型。

混乱

我可以检查出第一点。但是,我对第二点不太了解。我是否可以说,在测试集上评估模型的性能,并将其相互比较,这是外部循环吗? 是否应将嵌套的交叉验证本身用于特征选择?如果是,我是否应该对logistic和rpart都执行嵌套交叉验证,然后比较测试集的AUC?

0 个答案:

没有答案