在MNIST数据集上丢失CaffeNet与LeNet

时间:2015-12-15 13:49:09

标签: machine-learning neural-network deep-learning caffe mnist

我想在Caffe的MNIST数据集上训练CaffeNet。但是,我注意到在100次迭代后,损失略有下降(从2.663642.29882)。

但是,当我在MNIST上使用LeNet时,在2.41197次迭代后,损失从0.22359变为100

这是否会发生,因为CaffeNet有更多层,因此需要更多的训练时间来收敛?或者是由于其他原因?我确保网络的solver.prototxt是相同的。

虽然我知道100次迭代非常短(因为CaffeNet通常会训练大约300-400k迭代次数),但我觉得奇怪的是,LeNet很快就能获得如此小的损失。

1 个答案:

答案 0 :(得分:0)

我不熟悉这些网络的架构,但总的来说有几个可能的原因:

1)其中一个网络真的要复杂得多

2)其中一个网训练了更高的学习率

3)或者它可能使用了动量训练而其他网没有使用它?

4)也可能他们都在训练期间使用动量,但其中一个具有指定的更大的动量系数

真的,有很多可能的解释。