我对使用交叉验证进行模型构建有点陌生,但目前正在使用相对较小的数据集(n = 70)进行工作,我想尝试并应用这种技术。
根据我的理解,一种实现此目的的方法是执行嵌套的k折叠交叉验证,其中内部和外部折叠旨在分别指定模型和模型超参数。折痕的数量似乎是凭经验确定为k = 5或k = 10,以优化任何偏差-方差关系。
我的问题是/是:是否存在有效的“过小”样本量,无法使用这种方法?对于70名受试者,两个交叉验证步骤各10次折叠将有效地导致0-1名受试者的小划分。另外,在这种情况下(例如LOOCV),其他交叉验证技术是否会“更好”地工作?如果是这样,有人可以参考任何示例代码或资源以入门吗?
我认为答案最终“取决于”数据本身以及折叠之间的稳定性如何。