标签: reinforcement-learning q-learning
我在健身房NChain游戏中尝试了DoubleDQN和DQN算法,并意识到DoubleDQN的性能并没有比DQN稳定或更好。
我将每次执行操作后的训练批量设置为1。我是否可以知道这是DoubleDQN不能胜过DQN的原因吗?
Result Comparison
答案 0 :(得分:0)
您的两个网络似乎都没有学到任何东西,或者环境没有引起乐观的Q值。 n链的原始结果为 3643 。 A Bayesian Framework for Reinforcement Learning
在atari中,Dobule DQN在大多数游戏中都优于DQN,但在少数游戏中却有较差的结果。