应用错误收集

时间：2012-11-17 21:01:19

标签： machine-learning cross-validation

来自维基百科：

在k-fold交叉验证中，原始样本是随机的划分为k个相等大小的子样本。

我正在进行10倍交叉验证项目。我有一个包含76个元素的数据集。这意味着我不能拥有相同大小的分区。

剩余数据的方法有哪些（在我的示例中为6个数据）？忽略它们，制作数据16个元素，6个分区有11个元素还是等等？

答案 0 :(得分：0)

您有两个简单的选择。如果你真的想要使用10倍验证，那么有一些折叠有7个元素，有些有8个。它真的很重要。或者，使用四次验证，每次折叠19个元素。

要么是好的，你也不太可能看到那么大的差别。很难获得完全相同的折叠，但由于您的数据集较小，因此随着训练样本数量的变化，折叠之间可能会出现更大的差异。不过我对此表示怀疑。

答案 1 :(得分：0)

你不要忽视它们!!

简单地说，您可以随机分配10个数据点。

另一种方法是将它们添加到任何折叠中。最后，这些点将被传递一次以进行测试。