深度Q学习期刊失误

时间:2019-11-27 14:43:03

标签: loss dqn

我尝试针对自己的问题来训练Double-DQN(带有Experience Replay Buffer),但是遇到“定期丢失”的问题。

当损失增加时,奖励也会增加,但是一段时间后损失会下降,奖励也会减少,依此类推。 我正在使用RMSprop优化器(rho = 0.9)。

我已经试图降低学习速度,但没有成功。

有人对这种现象的任何可能原因有任何建议和建议吗?

感谢您的帮助!

Reward and Loss vs episode Number

0 个答案:

没有答案
相关问题