在拆分火车和测试装置时是否洗牌

时间:2018-04-30 13:28:48

标签: shuffle cross-validation

我需要一个模型来预测课程。所以我应该将我的数据分成训练,验证和测试集。起初,我改变了我的数据(火车组为80%,测试组为20%)。然后因为我应该确定一些超参数,我使用10倍交叉验证来分割我的火车组。最后,我使用火车组(80%的数据)和指定的超参数训练我的模型。 我有个问题。我先打乱我的数据然后将它们分开是不对的?一些研究人员认为,如果你想声称你的模型可以预测未来的数据,你就不应该改变数据。您应该选择最后20%的数据作为测试集。这样对吗?我可以改变我的数据吗?能告诉我一本学术书籍或论文来解决我的问题吗? 非常感谢

2 个答案:

答案 0 :(得分:0)

最好洗牌。如果示例的顺序使得先前的示例与后面的示例不同,则按顺序拆分可能导致训练和测试数据显着不同,从而使交叉验证不那么有意义。改组将减少这种可能性。

答案 1 :(得分:0)

与任何机器学习技术无关,可以有不同的方法来评估结果。在您遇到的问题中,您必须先对数据进行混洗,然后将其分为训练和测试集。这种混洗应该是随机的。为避免任何偏差,您可以重复此过程几次,然后报告平均结果。您还可以计算误差/准确性的标准偏差,以观察结果变化是否太大。如果是,则可能是您的模型学习不正确,您可能需要尝试其他方法或增加数据或执行其他操作。 对于NLP类型的问题Goolge改组建议,您可以在此处查看 Step 3: Prepare Your Data