python - 深度Q学习重播方法记忆消失

在带重放的强化学习中使用的Q学习算法中，将使用一种数据结构，其中存储了用于训练的先前经验（一个基本示例是Python中的元组）。对于复杂的状态空间，我将需要在非常多种不同的情况下训练代理，以获得能够正确逼近Q值的NN。体验数据将占用越来越多的内存，因此我应该对要存储的体验数量施加更高的限制，然后计算机应该从内存中删除体验。

您是否认为FIFO（先进先出）是处理代理程序内存中数据消失过程的好方法（那样，达到内存限制后，我将丢弃最早的经验，这可能很有用）允许代理商更快地适应培养基的变化）？我如何才能在内存中计算出最大数量的经验，以确保对代理人NN的Q学习收敛到我需要的Q函数逼近器（我知道这可以凭经验完成，我想知道此限制的估算值存在）？

深度Q学习重播方法记忆消失

1 个答案: