我已经在FER +数据集上训练了密集网络模型;然后我尝试在SEWA数据库上微调模型(在这种情况下,我具有回归功能)。因此,我从原始模型中删除了最后一个密集层,并用2个输出而不是8个输出的新密集层替换了它。
无论如何,在微调我使用AdamOptimizer的模型时,突然在大约50个历时之后,训练损失开始增加,而验证损失则继续减少,直到大约80个时期,然后再次上升。这是我得到的数字:
我想知道我是怎么使训练损失突然增加的...请注意,报告的损失是MSE。同样,总共对模型进行了6小时11分钟的训练。
我使用的优化器是AdamOptimizer,学习率为0.0005
非常感谢您的帮助!