没有函数逼近的梯度时间差Lambda

时间:2016-04-30 15:43:51

标签: machine-learning reinforcement-learning temporal-difference

在GTD(λ)的每一种形式中,似乎都是用函数逼近来定义它,使用θ和一些权重向量w。

我理解梯度方法的需求广泛来自线性函数逼近器的收敛性,但我想利用GTD进行重要性采样。

是否可以在没有函数逼近的情况下利用GTD?如果是这样,更新方程如何形式化?

1 个答案:

答案 0 :(得分:2)

我明白,当你说"没有函数逼近"你的意思是将值函数V表示为一个表。在这种情况下,V的表格表示也可以看作函数逼近。

例如,如果我们将近似值函数定义为:

latex equations

然后,使用表格表示,有与状态一样多的特征,并且给定状态s的特征向量对于除s以外的所有状态为零(它等于1),并且参数向量theta存储每个州的价值。因此,GTD以及其他算法可以在不做任何修改的情况下以表格方式使用。