我对如何正确执行k折叠交叉验证感到困惑,因为我已经看到它有两种方法:
第一种方法是将数据集分成k个分区,一个用于测试,一个用于验证,其余用于训练。数据的每个分区最终仅用于一次验证和测试。
第二种方法是将数据集分为两个分区,一个分区用于测试,一个分区用于训练/验证。然后,将训练/验证集划分为k个分区,一个用于训练,另一个用于验证。训练/验证集中的每个数据分区最终仅用于验证一次。对于每个交叉验证迭代,测试集都保持不变。
哪种方法正确,为什么?还是两者都有效?
编辑: 您链接为重复项的问题不会回答该问题。我在问两种潜在的交叉验证方法的有效性。
链接的问题是询问在各种验证方法(坚持,其他方法和我上面介绍的第二种交叉验证方法)中使用训练,验证和测试集的顺序。
我看到第二种方法现在是有效的,因为已经提到并回答了这一点。但是我描述的第一种方法呢?