为不具有等分区的K折叠交叉验证分区数据

时间:2012-11-17 21:01:19

标签: machine-learning cross-validation

来自维基百科:

  

在k-fold交叉验证中,原始样本是随机的   划分为k个相等大小的子样本。

我正在进行10倍交叉验证项目。我有一个包含76个元素的数据集。这意味着我不能拥有相同大小的分区。

剩余数据的方法有哪些(在我的示例中为6个数据)?忽略它们,制作数据16个元素,6个分区有11个元素还是等等?

2 个答案:

答案 0 :(得分:0)

您有两个简单的选择。如果你真的想要使用10倍验证,那么有一些折叠有7个元素,有些有8个。它真的很重要。或者,使用四次验证,每次折叠19个元素。

要么是好的,你也不太可能看到那么大的差别。很难获得完全相同的折叠,但由于您的数据集较小,因此随着训练样本数量的变化,折叠之间可能会出现更大的差异。不过我对此表示怀疑。

答案 1 :(得分:0)

你不要忽视它们!!

简单地说,您可以随机分配10个数据点。

另一种方法是将它们添加到任何折叠中。最后,这些点将被传递一次以进行测试。