k倍交叉验证的最佳折叠数

时间:2020-07-03 19:50:53

标签: machine-learning optimization cross-validation hyperparameters

任何人都可以推荐一些更正式的方法来确定最佳折叠数,而不是最大折叠数,并且不需要费时的模拟(可以预测地找到测试的k值范围的最大值最好)?

更多信息

从理论和模拟中我们知道,模型度量通常会随着折叠数(k)的增加而增加(有一些差异)。因此,在给定数据大小和时间限制的情况下,使用小于最大折叠数仍不可行的方法是次优的。

因此,使用5或10倍的标准默认值实际上也是超参数优化的一个示例,但由于是集体执行的,因此无需预先优化它们,而是根据时间限制进行​​切换以进行模型训练。作为一种特殊情况,在诸如深度学习之类的耗时的培训设置中,没有时间进行多次折叠,因此通常仅使用单个验证集。

1 个答案:

答案 0 :(得分:0)

可以从PCA scree plots借用一个不完善的解决方案-这就是所谓的肘点,但是它需要形式化,并且需要那些我们想避免的折数模拟。

例如,根据我对数百种模型(sklearn乳腺癌数据分类)的模拟,最佳肘点约为3-5倍:

Out-of-fold AUC vs folds_number (plot)