标签: reinforcement-learning q-learning
我目前正在考虑为DQN网络做TD(λ)。我知道如果它是一个表(你更新所有状态和动作对的Q(s,a)和e(s,a))如何实现,但是现在从函数逼近器(神经网络)检索Q值时会发生什么)?我如何更新所有州以及增加和减少资格痕迹?
我发现了2篇可能相关的论文,但他们并没有真正解释如何实施,而只是展示结果。 PDF Link 1 PDF Link 2