应用错误收集

K折叠交叉验证的简介

K折交叉验证将训练数据集分成k个不同的相等部分，也称为“褶皱”。依次将每一折视为测试集（也称为“验证集”），而其余的k-1块成为训练集。该模型通过迭代k-1个块进行训练并测试结果模型在验证集模块上，在该模块上要测量一些指标，例如精度，标准偏差等。此过程重复k次，之后所有模型的均值计算评估结果以确定最终模型评估结果。

总而言之，可以通过以下步骤实现K折交叉验证：

随机播放初始数据集。

将数据集拆分为k折。
每折：

（a）将第一折设置为测试数据集。

（b）将剩余折痕设置为训练数据集。

（c）使用训练集来演化模型并使用模型来评估测试数据集。

（d）重复k次。
为k个测试数据集评估计算模型评估的平均值。

您正在验证模型，即，您试图了解模型在原始数据中捕获基础模式和关系的能力如何-因此，用于训练的数据将是原始数据（训练意味着您正在将其输入模型以使其能够学习），而验证数据是您输入到模型中以查看其学习训练数据的程度的数据。 k折交叉验证的基本思想是不要对训练之前已经看到的数据进行测试。

特别是您的案例

您有带有标签的数据，每个实例都是一个“对”：污染数据->伦敦航空数据。假设您有100对唯一的货币对-例如将80个这样的对放入模型中进行训练（如果原始数据污染值为a，londonair标签为b ，则为训练对），其余20个将用于验证-供稿对污染数据进行建模，并检查模型是否返回了与污染数据相对应的londonair数据标签（如果原始数据污染值为a，标签应根据模型是什么？ ）。重复上面介绍中所述的过程，然后取平均结果，这将反映您的模型准确性。

如何创建k折交叉验证测试？

1 个答案: