应用错误收集

火车数据＆amp;数据科学中的测试数据

时间：2017-04-25 09:06:24

标签： data-science

我是python中相对较新的数据科学，正在探索数据科学的一些竞争，我对＃34;训练数据集＆＃34;和＆＃34;测试数据集＆＃34; 。有些项目已合并两者，有些项目已分开。拥有两个数据集的理由是什么？任何建议都会有所帮助，谢谢

5 个答案:

答案 0 :(得分：3)

“训练数据”和“测试数据”是指您要分析的数据的子集。如果使用受监督的机器学习算法对数据执行某些操作（例如，将数据点分类为集群），则需要对算法进行“训练”。

监督机器学习算法的一些例子是支持向量机（SVM）和线性回归。它们可用于对具有多个维度的数据进行分类或聚类，从而使我们能够聚集相似的数据点。

这些算法需要在将数据子集（“训练集”）用于“测试集”之前进行分析。从本质上讲，培训为算法提供了一个机会来推断它所呈现的一些新数据的一般解决方案，就像我们人类训练一样，以便我们能够处理未来的新情况。

希望这有帮助！

答案 1 :(得分：0)

数据集是行列表，可以拆分为训练和测试段。这样做的原因是在代码的训练过程中使用的数据行之间保持CLEAR分离（将其视为用于“训练”婴儿学习对象的抽认卡）和数据行使用的（当您测试宝宝学习物品时）。您希望它们是分开的，以便获得算法执行情况的准确分数（例如，宝宝在测试时得到9/10正确）。如果您混合训练行和测试，您将不知道婴儿是否记住了训练结果或实际知道如何识别9/10新图像。

通常，数据集作为一组给出，因为在代码执行期间，通过随机选择行来随机选择训练和测试集是很好的。这样你可以进行几次训练和不同时间的测试，并且可以取平均值。例如，婴儿可能第一次获得9/10，下一次获得6/10，最后一次获得7/10。那么平均准确度将为73.3％。这比仅尝试一次更好（我们可以看到并不完全准确）。

答案 2 :(得分：0)

列车数据集用于训练您的模型，经过训练后，如何检查训练模型的准确程度？为此，我们使用测试数据集，我们通常将可用数据分为两部分1进行培训，1部分进行测试。

答案 3 :(得分：0)

Case 1 - when train and test datasets are merged into one - 建议将整个数据分成火车，交叉验证和测试集，比例为60:20:20（train：CV：test）。我们的想法是使用列车数据来构建模型并使用CV数据来测试模型和参数的有效性。在最终预测阶段之前，您的模型永远不应该看到测试数据。所以基本上，你应该使用train和CV数据来构建模型并使其健壮。

Case 2 - when train and test datasets are separate - 您应该将列车数据拆分为火车和CV数据集。或者，您可以在火车组上执行k折交叉验证。

在大多数情况下，拆分是随机完成的。但是，如果数据是时间相关的，则拆分不能是随机的。

答案 4 :(得分：0)

训练集用于构建模型。它包含一组具有目标和预测变量的数据。这是模型在训练时已经看到的数据，因此（在找到最佳参数之后），提供了良好的准确性（或其他模型性能参数）。

测试集用于评估模型对训练集外部数据的处理程度（该模型未见过）。已经开发的模型（在训练期间）用于预测，并且将结果与预分类数据进行比较。调整模型以最小化测试集上的错误。