应用错误收集

如果我不关心对新数据的准确性的无偏估计，我是否需要测试集？

时间：2018-03-07 23:21:04

标签： machine-learning data-science training-data

我理解为什么我们有训练集，验证集和测试集。简而言之：

训练集 - 用于训练模型
验证集 - 用于比较模型中的模型或超参数
测试集 - 获得对新数据的模型性能的无偏估计

据我所知，在许多情况下，您需要对模型性能进行无偏估计，例如发布论文或向客户报告结果。但是，在我的情况下，我并不关心对新数据的模型性能进行无偏估计。我只是想找到最好的模型并使用它。另外，我没有那么多数据，宁愿拥有更大的训练集和验证集。除了对模型性能进行无偏估计之外，还有其他理由包括测试集吗？我只使用火车和验证是否有意义？

1 个答案:

答案 0 :(得分：0)

如果要调整参数以在验证集上表现良好，并且从不测试模型而不进行任何进一步调整，则很难测量模型的性能。

验证集允许您获得有关模型性能的反馈并更改超参数/特征等，但要真实地测量模型以及预期对新数据执行的程度，应使用一些数据来衡量它还没有见过。

简而言之，通过调整参数和工程特定功能可以轻松过度拟合验证集，这些功能可能会夸大模型在实际数据上的真实性能。这就是测试集提供价值的地方。