为什么第2层中的偏压分布变化如此剧烈?
(第一层中的偏置分布在每个步骤中几乎相同。
有人可以解释这种现象吗?
答案 0 :(得分:0)
您所看到的几乎可以肯定是过度拟合。这不是实现过程中的错误,而是您所理解的问题。此1,055个神经元多层感知器(MLP)的重量约为6.2M(取决于您的实现)!这足以记住几乎所有模式。您在直方图中看到的是偏差参数的迁移以适合数据。它仅在最后一层中发生,因为仅在最后一层中的偏差项就足以存储数据。从非常明确的参数集中程度来看,我猜您正在针对一个非常小的数据集进行训练。这就是MLP记忆数据点时的样子。查阅您的训练和验证损失与时期曲线,以确认该假设。