标签: machine-learning reinforcement-learning temporal-difference
在GTD(λ)的每一种形式中,似乎都是用函数逼近来定义它,使用θ和一些权重向量w。
我理解梯度方法的需求广泛来自线性函数逼近器的收敛性,但我想利用GTD进行重要性采样。
是否可以在没有函数逼近的情况下利用GTD?如果是这样,更新方程如何形式化?
答案 0 :(得分:2)
我明白,当你说"没有函数逼近"你的意思是将值函数V表示为一个表。在这种情况下,V的表格表示也可以看作函数逼近。
例如,如果我们将近似值函数定义为:
然后,使用表格表示,有与状态一样多的特征,并且给定状态s的特征向量对于除s以外的所有状态为零(它等于1),并且参数向量theta存储每个州的价值。因此,GTD以及其他算法可以在不做任何修改的情况下以表格方式使用。