我有一个包含198个观察数据和122个特征的数据集,以及两个在某种程度上平衡的类别(积极类别为54%)。
我的框架使用10倍交叉验证(x10)来选择模型参数(kernelPLS),并为测试集留出一次。具体而言,对于每次观察,我使用19次观察以10倍CV(重复10次)训练模型,并使用最终的组合模型来预测遗漏观察的标记。
我目前使用我的火车/验证装置(95%使用.05 SD)获得了非常好的准确性,这是完全100倍。但是,我在测试集(LOOCV)中的准确率仅为64%。有什么想法吗?
我认为多重交叉验证可以解决潜在的过度拟合问题吗?
谢谢!