正确估计优化模型的测试误差的方法

时间:2017-10-17 19:04:21

标签: machine-learning scikit-learn

上下文:

根据Muller"使用python"进行机器学习简介推荐的工作流程,可以对在测试过程开始时留下的测试集进行单一评分评估:

enter image description here

这有利于通过嵌套交叉验证设置其超参数集的给定模型,该验证可以使用多个(不同的)模型。

对单个测试集的评估会给出具有高差异的估算器。

问题:

有没有办法获得比这个单一分数更好的泛化误差估计? (即使这种方法需要更多的训练迭代)

1 个答案:

答案 0 :(得分:1)

工作流程非常完美,但我认为您的模型需要一些工作。 您可以在Training / Validation / Test集中划分数据集。然后,您可以使用交叉验证训练您的训练数据,在验证集上继续测试,直到您获得良好的结果,然后作为最后一步使用测试数据。