shuffle - 在拆分火车和测试装置时是否洗牌

在拆分火车和测试装置时是否洗牌

时间：2018-04-30 13:28:48

标签： shuffle cross-validation

我需要一个模型来预测课程。所以我应该将我的数据分成训练，验证和测试集。起初，我改变了我的数据（火车组为80％，测试组为20％）。然后因为我应该确定一些超参数，我使用10倍交叉验证来分割我的火车组。最后，我使用火车组（80％的数据）和指定的超参数训练我的模型。我有个问题。我先打乱我的数据然后将它们分开是不对的？一些研究人员认为，如果你想声称你的模型可以预测未来的数据，你就不应该改变数据。您应该选择最后20％的数据作为测试集。这样对吗？我可以改变我的数据吗？能告诉我一本学术书籍或论文来解决我的问题吗？非常感谢

2 个答案:

答案 0 :(得分：0)

最好洗牌。如果示例的顺序使得先前的示例与后面的示例不同，则按顺序拆分可能导致训练和测试数据显着不同，从而使交叉验证不那么有意义。改组将减少这种可能性。

答案 1 :(得分：0)

与任何机器学习技术无关，可以有不同的方法来评估结果。在您遇到的问题中，您必须先对数据进行混洗，然后将其分为训练和测试集。这种混洗应该是随机的。为避免任何偏差，您可以重复此过程几次，然后报告平均结果。您还可以计算误差/准确性的标准偏差，以观察结果变化是否太大。如果是，则可能是您的模型学习不正确，您可能需要尝试其他方法或增加数据或执行其他操作。对于NLP类型的问题Goolge改组建议，您可以在此处查看 Step 3: Prepare Your Data