我有一个门控递归单元(GRU)模型,我制作了两个版本,每个版本都略有不同。当我同时运行这两个版本时,版本1的验证均方误差(MSE)为0.0013,而版本2的验证均方误差为0.0015。这意味着版本1是更好的模型。但是当我在测试数据帧中运行model.evaluate(X_test,y_test)
时,Version给我的MSE值为0.0027,而Version 2给我的是0.0018。
我的问题是,使用Test数据框进行预测时,哪个版本被认为更好,哪个版本的Validation MSE更好,或者哪个模型的MSE更低
谢谢。
答案 0 :(得分:1)
首先,您不能在测试集上作弊,而是选择模型以使其在测试中提供最佳结果。验证是用于该目的的,而测试仅用于检查验证和测试是否相互配合。
您没有提及培训,验证和测试的规模。在训练,验证和测试中,使用的数据大小必须足够大以表示数据的真实分布,这一点非常重要。
另一方面,对数据进行采样的方式应该这样,即三组具有相同的分布。
最后,同样重要的是,您正在比较两个结果,它们在MSE中相差大约0.0002。我认为这不能让您很好地判断哪个更好。