应用错误收集

这个问题是为了重新组织this question以便使其更清楚。

This slide根据一组权重和特征函数显示了Q（状态，动作）的方程。

它们之所以不同，是因为第一张幻灯片假定您可以预期执行动作的结果，然后找到结果状态的特征。（请注意，要素功能既是当前状态又是预期动作的功能。）在这种情况下，可以将相同的权重集应用于所有生成的要素。

但是在某些情况下，人们无法预期动作的效果。那怎么办？即使一个人拥有完美的权重，但如果无法预期这些结果，也就无法将其应用于执行操作的结果。

我的猜测是第二对幻灯片处理了该问题。计算当前状态的特征并为每个动作应用可能不同的权重，而不是执行操作，然后将权重应用于结果状态的特征。

这是两种非常不同的基于特征的近似方法。它们都有效吗？第一种在诸如出租车等情况下是有意义的，在这种情况下，人们可以有效地模拟环境在每次操作时将执行的操作。但是在某些情况下，例如“撑杆子”，这是不可能/可行的。这样看来，您需要为每个操作分别设置一组权重。

这是思考的正确方法，还是我错过了什么？

谢谢。