我正在学习VGG,以下性能图令我震惊:
我的问题是:从图中可以看出,首先是快速增长,然后逐渐放缓。这对我来说很有意义,因为损失越小,改进模型变得越困难。但是,在50、75和100个纪元标记附近也出现了三个突然下降。我很好奇为什么所有模型会同时经历这种下降和反弹?是什么原因造成的?
在此先感谢您的帮助。
答案 0 :(得分:2)
这是复杂模型训练中的常见现象。例如,经典的CNN表现出这种行为:AlexNet和GoogleNet在训练模式上有两次下降改进。这是模型的整体学习特征的非常复杂和有机的影响。
过分简化……即使模型看上去很平滑,大多数模型也存在固有的学习瓶颈。该模型会学习一段时间,直到后面的层在反向传播过程中适应得很好为止……直到学习遇到瓶颈之一,输入驱动和反馈中的某些干扰往往会进一步阻碍 real 在训练早期层次方面取得了进展。这表明在学习这些较低层时存在一些错误的假设,这些假设现在在较高层中遇到了一些统计现实。
训练过程的自然操作会迫使一些早期的混乱回到有些稳定的晚期-虽然不是那么随机,但是这是一种有机的辍学效应。在后期的一些“学习过的”内核被证明是不正确的,并且使它们的权重重新加扰了。由于出现这种情况,如图所示,该模型的准确性一度下降,但很快就会比以前学得更好。
我不知道如何预测给定拓扑的发生时间和方式。我个人的希望是,它原来是拓扑结构中固有的某种谐波共振,例如封闭空间中的音频共振,或许多动物上的斑点/条纹。