应用错误收集

你可能必须通过了解三个不同的概念来理解这个概念，它们是

一个。训练集

湾验证集

℃。测试集

您拥有的任何数据集以及何时要对其应用任何算法都需要将数据集拆分为上述三种数据集。

一个。训练集通常会给出原始数据集的大约60％。这包含一组预先分类了目标和预测变量的数据。这就是拟合参数。

湾验证集通常需要大约20％才能验证目前为止从模型中学习的知识。在统计学中，它被称为交叉验证。这里的结果与未使用的预分类数据进行比较。验证数据集提供了对训练数据集的模型拟合的无偏估计。

℃。测试集通常在20％左右这里我们在我们的测试集上应用我们选择的预测算法，以便了解它将如何执行，这样我们就可以了解算法的性能。使用相同的数据进行训练也不好作为测试，因为它不会让我们知道网络的概括程度以及过度拟合是否已经发生。因此，我们需要保持单独的对。

分裂也可以是60-20-20甚至70-15-15

区别很简单。

一般情况下，您可以将您的火车组划分为70％的数据，将您的测试组划分为30％。（80/20也是可能的）

列车集是您训练模型的数据集（分类，回归）。设置一些通用规则后，您可以在测试设置中应用这些规则，并检查您的测试数据中有多少预测正确。我希望这很有帮助！