我想在Caffe的MNIST数据集上训练CaffeNet。但是,我注意到在100
次迭代后,损失略有下降(从2.66364
到2.29882
)。
但是,当我在MNIST上使用LeNet时,在2.41197
次迭代后,损失从0.22359
变为100
。
这是否会发生,因为CaffeNet有更多层,因此需要更多的训练时间来收敛?或者是由于其他原因?我确保网络的solver.prototxt是相同的。
虽然我知道100次迭代非常短(因为CaffeNet通常会训练大约300-400k迭代次数),但我觉得奇怪的是,LeNet很快就能获得如此小的损失。
答案 0 :(得分:0)
我不熟悉这些网络的架构,但总的来说有几个可能的原因:
1)其中一个网络真的要复杂得多
2)其中一个网训练了更高的学习率
3)或者它可能使用了动量训练而其他网没有使用它?
4)也可能他们都在训练期间使用动量,但其中一个具有指定的更大的动量系数真的,有很多可能的解释。