标签: loss dqn
我尝试针对自己的问题来训练Double-DQN(带有Experience Replay Buffer),但是遇到“定期丢失”的问题。
当损失增加时,奖励也会增加,但是一段时间后损失会下降,奖励也会减少,依此类推。 我正在使用RMSprop优化器(rho = 0.9)。
我已经试图降低学习速度,但没有成功。
有人对这种现象的任何可能原因有任何建议和建议吗?
感谢您的帮助!
Reward and Loss vs episode Number