我正在用tensorflow model产生的tfrecords训练我的mobilenet v3。训练损耗w.r.t步长绘制如下。 x轴上的单位长度为20k步(由于批量总数= 128和1281167个样本,大约2个纪元)。
我的指数衰减学习率每3个周期带有阶梯,0.01,损耗通常在前4个周期下降。但是,损失在第4个时期之后的每个时期都会上升或下降。我尝试了动量优化器(漆成橙色)和rmsprop优化器(漆成蓝色),然后得到了相似的结果。请帮助我解决此问题。答案 0 :(得分:1)
周期几乎可以肯定地与1个完整纪元对齐。
对于您的模型,不同批次的损失随机变化是很自然的。您会发现随着重量的稳定,这种随机变化会不断地重复,因此您每次粗暴地看到每个批次的(大致)相同的损失。
我不确定它是否需要进行故障排除,但是如果您真的想避免它,则可以在各个时期之间对数据集进行洗牌