我正在医学数据集上训练3D Unet。我试图在只有一个实例的小型数据集上过度拟合模型。损耗首先减小,但突然上升到很高的值。我附上下面的损耗曲线。我在每个卷积层之后添加批处理规范化,并对损失进行l2正则化。
损失函数是加权的softmax交叉熵。
Optimizer是Adam,初始学习率为0.0001。
我想知道为什么损失无法稳定。这是否意味着损失函数过于平滑?
答案 0 :(得分:0)
我改变了初始化体重的方式。目前,培训过程非常稳定。该模型正在按预期收敛。
答案 1 :(得分:0)
有很多因素会影响损失函数。如前所述,您更改了初始化权重的方式。其他因素可能是学习率,正则化因素,您使用的优化程序的类型。 尽管您已经提到了其中一些。
有一些建议: 1.尝试使用辍学。 2.尝试使用学习率和正则化的不同组合并标出损失。
此外,我认为使用Adam优化器是一个好主意。它确实提高了处理速度。
最终,大部分结果都是根据经验得出的,并且很大程度上取决于您的数据集。