我之所以问这个问题,是因为我在比赛中注意到人们倾向于将损失最小化为0。我有一个“图像二进制分类”问题,并且我已经通过“从头开始训练”转移学习模型实现了binary_crossentropy_loss到0.003的目标。如何进一步将其减小为0?我应该重新调整模型还是应该返回图像特征工程?
此外,根据此处的图片,我想我遇到的是“消失的梯度”而不是“过度拟合”。如果是这样,我下一步应该怎么做?
谢谢!
答案 0 :(得分:1)
由于您尝试执行图像二进制分类,因此,如果您可以将训练损失和验证损失都减至0,则基本上意味着您的网络已被“完全”训练为仅使用训练图像来识别所有验证图像。发生这种情况时,我认为最好为网络获取“更难”的数据。
从您的图像来看,我认为您应该继续训练模型以获得更多的时代,因为val_loss似乎尚未收敛;因此,没有迹象表明“过度拟合”。
关于“消失的梯度”,由于消失的梯度的常见标志是权重逐渐降低到0,因此无法从图片中分辨出来。要检查此问题,我认为您应该跟踪模型的权重分布除了损失。