标签: reinforcement-learning dqn
为什么dqn算法仅执行一个梯度下降步骤,即仅训练一个历元?它会不会受益于更多的时代,它的准确性会不会随着更多的时代而提高?
答案 0 :(得分:1)
时间效率。
从理论上讲,在策略迭代/评估方案中,您应该等到收敛后再进行下一次更新。但是,这可能(a)永远不会发生,(b)花费太多。 因此,人们通常以较低的学习率完成一个步骤,以期使批评家(Q)不会“过错”。
您可以尝试更多的步骤,但是总的来说,要执行多少个渐变步骤是一种设计选择,他们可能会发现这是最好的。