Q-Learning过去经验的知识

时间:2018-01-17 04:16:07

标签: machine-learning neural-network reinforcement-learning q-learning

我一直在阅读许多强化学习文章 - 更具体地说是Q-Learning。我被困的地方是如何从过去的经历中学到什么?我遇到了一个名为experience-replay的概念,它实际上是从过去的经验中学习的。但那篇文章将包括神经网络。我对此有点困惑。现在,do we really need some neural nets to implement this experience-replay

1 个答案:

答案 0 :(得分:2)

一些强化学习算法,例如Q-learning,从经验中学习(将经验理解为元组<state, action, next_state, reward>)。如果经验是先前收集或未收集,则无关紧要,因为学习原则是相同的。因此,您可以收集经验并多次使用它们,即体验重播。

体验重播可以带来一些好处,例如加快学习过程。在结合RL +神经网络时发挥作用的另一个好处是,它可以稳定学习过程。基本上,在学习过程中,当您训练网络学习一些Q值时,它可以“忘记”过去学到的Q值。在这种情况下,如果您存储过去的经验并使用其中的一组,则会强制网络学习所有(过去和新的)Q值。

This Stackoverflow response也许有助于更好地理解为什么神经网络会忘记以前的Q值。