应用错误收集

这是复杂模型训练中的常见现象。例如，经典的CNN表现出这种行为：AlexNet和GoogleNet在训练模式上有两次下降改进。这是模型的整体学习特征的非常复杂和有机的影响。

过分简化……即使模型看上去很平滑，大多数模型也存在固有的学习瓶颈。该模型会学习一段时间，直到后面的层在反向传播过程中适应得很好为止……直到学习遇到瓶颈之一，输入驱动和反馈中的某些干扰往往会进一步阻碍 real 在训练早期层次方面取得了进展。这表明在学习这些较低层时存在一些错误的假设，这些假设现在在较高层中遇到了一些统计现实。

训练过程的自然操作会迫使一些早期的混乱回到有些稳定的晚期-虽然不是那么随机，但是这是一种有机的辍学效应。在后期的一些“学习过的”内核被证明是不正确的，并且使它们的权重重新加扰了。由于出现这种情况，如图所示，该模型的准确性一度下降，但很快就会比以前学得更好。

我不知道如何预测给定拓扑的发生时间和方式。我个人的希望是，它原来是拓扑结构中固有的某种谐波共振，例如封闭空间中的音频共振，或许多动物上的斑点/条纹。

卷积神经网络性能中的奇怪模式

1 个答案: