应用错误收集

验证损失或模型评估

时间：2020-03-14 04:40:15

标签： python tensorflow machine-learning keras

我有一个门控递归单元（GRU）模型，我制作了两个版本，每个版本都略有不同。当我同时运行这两个版本时，版本1的验证均方误差（MSE）为0.0013，而版本2的验证均方误差为0.0015。这意味着版本1是更好的模型。但是当我在测试数据帧中运行model.evaluate(X_test,y_test)时，Version给我的MSE值为0.0027，而Version 2给我的是0.0018。

我的问题是，使用Test数据框进行预测时，哪个版本被认为更好，哪个版本的Validation MSE更好，或者哪个模型的MSE更低

谢谢。

1 个答案:

答案 0 :(得分：1)

首先，您不能在测试集上作弊，而是选择模型以使其在测试中提供最佳结果。验证是用于该目的的，而测试仅用于检查验证和测试是否相互配合。

您没有提及培训，验证和测试的规模。在训练，验证和测试中，使用的数据大小必须足够大以表示数据的真实分布，这一点非常重要。

另一方面，对数据进行采样的方式应该这样，即三组具有相同的分布。

最后，同样重要的是，您正在比较两个结果，它们在MSE中相差大约0.0002。我认为这不能让您很好地判断哪个更好。