应用错误收集

我是mxnet的新手，我想重复我朋友的工作来训练mxnet模型。该模型是一个卷积网络，不是很困难。因此，第一步，我使用了完全相同的代码以及训练和验证数据（.lst和.rec）。但是，我得到了非常奇怪的结果。训练损失（rmse）持续降低并收敛到与我朋友的结果非常相似的某个值，但是在几个（〜20）个时期之后，验证损失变得非常大（比训练损失高出10倍以上）。在我朋友的计算机上，验证损失始终会收敛到一个很小的值，类似于训练损失。所以首先，我认为这是由于环境造成的。我重新安装了所有东西，ubuntu（18.04），python（3.6.7）mxnet（1.2.1），nvidia-driver（390）和cuda工具包（9.0），以确保两台计算机上的环境相同。但是我仍然得到了这个奇怪的结果。

这是由于过度拟合吗？但是我们使用了确切的数据和代码，而这在我朋友的计算机上从未发生过。

有人对这个问题有想法吗？非常感谢。

训练期间验证损失变得非常大

0 个答案: