我是mxnet的新手,我想重复我朋友的工作来训练mxnet模型。该模型是一个卷积网络,不是很困难。因此,第一步,我使用了完全相同的代码以及训练和验证数据(.lst和.rec)。但是,我得到了非常奇怪的结果。训练损失(rmse)持续降低并收敛到与我朋友的结果非常相似的某个值,但是在几个(〜20)个时期之后,验证损失变得非常大(比训练损失高出10倍以上)。在我朋友的计算机上,验证损失始终会收敛到一个很小的值,类似于训练损失。所以首先,我认为这是由于环境造成的。我重新安装了所有东西,ubuntu(18.04),python(3.6.7)mxnet(1.2.1),nvidia-driver(390)和cuda工具包(9.0),以确保两台计算机上的环境相同。但是我仍然得到了这个奇怪的结果。
这是由于过度拟合吗?但是我们使用了确切的数据和代码,而这在我朋友的计算机上从未发生过。
有人对这个问题有想法吗?非常感谢。