深度Q学习重播方法记忆消失

时间:2018-06-27 18:33:12

标签: python machine-learning deep-learning reinforcement-learning q-learning

在带重放的强化学习中使用的Q学习算法中,将使用一种数据结构,其中存储了用于训练的先前经验(一个基本示例是Python中的元组)。对于复杂的状态空间,我将需要在非常多种不同的情况下训练代理,以获得能够正确逼近Q值的NN。体验数据将占用越来越多的内存,因此我应该对要存储的体验数量施加更高的限制,然后计算机应该从内存中删除体验。

您是否认为FIFO(先进先出)是处理代理程序内存中数据消失过程的好方法(那样,达到内存限制后,我将丢弃最早的经验,这可能很有用)允许代理商更快地适应培养基的变化)?我如何才能在内存中计算出最大数量的经验,以确保对代理人NN的Q学习收敛到我需要的Q函数逼近器(我知道这可以凭经验完成,我想知道此限制的估算值存在)?

1 个答案:

答案 0 :(得分:0)

在关于“深度强化学习”的preeminent paper中,DeepMind通过随机选择应存储的经验来获得其结果。其余的体验被删除。

在不了解您要解决的问题的情况下,很难说FIFO方法将如何影响您的结果。正如dblclik指出的那样,这可能会导致您的学习代理过度适应。也就是说,值得尝试。在某些情况下,使用FIFO饱和体验重放可能会加快学习速度。我会尝试两种方法,看看您的代理是否能更快地达到融合。