K折交叉验证和样本外交叉验证

时间:2020-05-13 04:45:04

标签: machine-learning statistics data-science data-analysis cross-validation

db.getCollection("folders").find({ accessControlList: { "$elemMatch": { user: "5500014VRN" } }, $text: { "$search": "vitae" } }); K-fold cross validation有什么区别?您能用几句话来描述每种CV方法的步骤吗?

1 个答案:

答案 0 :(得分:1)

K折叠交叉验证是一种样本外交叉验证。 “样本外”的名称来自以下事实:如果我们拟合模型并在训练集上计算MSE,我们将对模型拟合独立数据集的程度获得乐观的评估。这种有偏差的估计称为拟合的样本内估计(我们将使用训练样本),而交叉验证的估计则为样本外估计。

在k倍交叉验证中,原始样本被随机分为k个相等大小的子样本。在k个子样本中,保留了一个子样本作为用于测试模型的验证数据,其余的k -1个子样本用作训练数据。然后,将交叉验证过程重复k次,k个子样本中的每一个仅被用作验证数据一次。然后可以将k个结果取平均值以产生单个估计。与重复随机子采样相比,此方法的优势在于,所有观测值均用于训练和验证,每个观测值均仅用于验证一次。

对于其他方法,您可以查看维基百科,那里有出色的摘要:https://en.wikipedia.org/wiki/Cross-validation_(statistics)#Types