我们一直在运行' gbm'大约15k行的数据集上的模型。我们直接实现了10次交叉验证,得出了一个交叉验证的模型,我们用它来再次预测同一个数据集。
这导致可能过度拟合的模型具有约0.99训练AUC和0.92cv AUC。预测AUC也很高,约为0.99。
审稿人要求我们使用保留数据集验证模型。 我们假设我们将数据分成保持数据和训练数据。然后训练数据将再次进行kfold交叉验证。然后使用保持数据集验证模型。我的最后一个问题是,我们是否可以在整个数据集上再次使用经过验证的模型进行预测?
答案 0 :(得分:3)
你可以...... 的问题应该取决于你想要描绘的内容。
理想情况下,您希望能够显示您的模型能够很好地推广到新数据(保持),并将其与模型在训练数据上的执行情况进行比较。如果您的模型在两者之间的性能差异很大,那么您可能会过度拟合数据。
我不会立即预测所有数据(培训和坚持),因为它不能帮助证明模型能够预测看不见的数据。
您的目标是在k-CV期间提供训练数据的表现,然后保持坚持。
根据您的k-CV设置,您可以在比较前预测两者之前训练整个训练集上的模型。您需要更具体地描述您的确切设置。