这个问题是为了重新组织this question以便使其更清楚。
This slide根据一组权重和特征函数显示了Q(状态,动作)的方程。
这些讨论(The Basic Update Rule和Linear Value Function Approximation)显示了每个操作的权重。
它们之所以不同,是因为第一张幻灯片假定您可以预期执行动作的结果,然后找到结果状态的特征。 (请注意,要素功能既是当前状态又是预期动作的功能。)在这种情况下,可以将相同的权重集应用于所有生成的要素。
但是在某些情况下,人们无法预期动作的效果。那怎么办?即使一个人拥有完美的权重,但如果无法预期这些结果,也就无法将其应用于执行操作的结果。
我的猜测是第二对幻灯片处理了该问题。计算当前状态的特征并为每个动作应用可能不同的权重,而不是执行操作,然后将权重应用于结果状态的特征。
这是两种非常不同的基于特征的近似方法。它们都有效吗?第一种在诸如出租车等情况下是有意义的,在这种情况下,人们可以有效地模拟环境在每次操作时将执行的操作。但是在某些情况下,例如“撑杆子”,这是不可能/可行的。这样看来,您需要为每个操作分别设置一组权重。
这是思考的正确方法,还是我错过了什么?
谢谢。