我知道这个问题很普遍,但是我查看了之前提出的所有问题,但我仍然不明白为什么我们还需要验证集。 我知道有时候人们只使用一个训练集和一个测试集,那么为什么我们还需要一个验证集? 以及我们如何使用它? 例如,为了估算丢失的数据,我是否分别估算这3个不同的集合?
谢谢!
答案 0 :(得分:0)
我将尝试举例说明。
如果我正在训练神经网络或进行线性回归,并且仅使用训练和测试数据,则可以检查每次迭代的测试数据丢失,并在测试数据丢失开始增长或获取快照时停止具有最低测试损失的模型。
从某种意义上说,这是对我的测试数据的“过度拟合”,因为我基于此决定何时停止。
如果我正在使用测试,训练和验证数据,则可以使用验证而不是测试数据执行与上述相同的过程,然后在确定模型何时进行训练之后,可以在从未进行过的测试中进行测试查看测试数据可以使我对模型的预测更加公正。
对于问题的第二部分,我建议至少将测试数据视为独立数据,并以不同的方式估算缺失的数据,但这取决于情况和数据。