如果我不关心对新数据的准确性的无偏估计,我是否需要测试集?

时间:2018-03-07 23:21:04

标签: machine-learning data-science training-data

我理解为什么我们有训练集,验证集和测试集。简而言之:

  • 训练集 - 用于训练模型
  • 验证集 - 用于比较模型中的模型或超参数
  • 测试集 - 获得对新数据的模型性能的无偏估计

据我所知,在许多情况下,您需要对模型性能进行无偏估计,例如发布论文或向客户报告结果。但是,在我的情况下,我并不关心对新数据的模型性能进行无偏估计。我只是想找到最好的模型并使用它。另外,我没有那么多数据,宁愿拥有更大的训练集和验证集。除了对模型性能进行无偏估计之外,还有其他理由包括测试集吗?我只使用火车和验证是否有意义?

1 个答案:

答案 0 :(得分:0)

如果要调整参数以在验证集上表现良好,并且从不测试模型而不进行任何进一步调整,则很难测量模型的性能。

验证集允许您获得有关模型性能的反馈并更改超参数/特征等,但要真实地测量模型以及预期对新数据执行的程度,应使用一些数据来衡量它还没有见过。

简而言之,通过调整参数和工程特定功能可以轻松过度拟合验证集,这些功能可能会夸大模型在实际数据上的真实性能。这就是测试集提供价值的地方。