标签: reinforcement-learning q-learning
我试图更好地理解文件,其中提到“我们增加了目标网络每两个副本之间的帧数 从10,000到30,000,以进一步减少高估,因为在每次切换之后DQN和Double DQN都立即恢复为Q学习”。这是关于同时恢复为DQN还是Double DQN实际上是通过FMDP变为Q学习? >