应用错误收集

使用函数逼近和资格跟踪进行强化学习

时间：2018-06-12 08:05:57

标签： reinforcement-learning q-learning

我目前正在考虑为DQN网络做TD（λ）。我知道如果它是一个表（你更新所有状态和动作对的Q（s，a）和e（s，a））如何实现，但是现在从函数逼近器（神经网络）检索Q值时会发生什么）？我如何更新所有州以及增加和减少资格痕迹？

我发现了2篇可能相关的论文，但他们并没有真正解释如何实施，而只是展示结果。 PDF Link 1 PDF Link 2

0 个答案:

没有答案