应用错误收集

深度Q学习期刊失误

时间：2019-11-27 14:43:03

标签： loss dqn

我尝试针对自己的问题来训练Double-DQN（带有Experience Replay Buffer），但是遇到“定期丢失”的问题。

当损失增加时，奖励也会增加，但是一段时间后损失会下降，奖励也会减少，依此类推。我正在使用RMSprop优化器（rho = 0.9）。

我已经试图降低学习速度，但没有成功。

有人对这种现象的任何可能原因有任何建议和建议吗？

感谢您的帮助！

Reward and Loss vs episode Number

0 个答案:

没有答案