使用函数逼近和资格跟踪进行强化学习

时间:2018-06-12 08:05:57

标签: reinforcement-learning q-learning

我目前正在考虑为DQN网络做TD(λ)。我知道如果它是一个表(你更新所有状态和动作对的Q(s,a)和e(s,a))如何实现,但是现在从函数逼近器(神经网络)检索Q值时会发生什么)?我如何更新所有州以及增加和减少资格痕迹?

我发现了2篇可能相关的论文,但他们并没有真正解释如何实施,而只是展示结果。 PDF Link 1 PDF Link 2

0 个答案:

没有答案