应用错误收集

MDP计算

时间：2019-06-02 09:32:54

标签： artificial-intelligence reinforcement-learning

以下计算如何工作？

1 个答案:

答案 0 :(得分：2)

处于状态S_ {n-2}时，最佳操作是

[a0, a0, {a0|a1}, {a0|a1}, {a0|a1}, ...]

这将为您提供以下奖励顺序：

[0.0, 0.0, 1.0, 1.0, 1.0, ...]

要获得S_ {n-2}中的最优值，您只需使用γ来折衷最优奖励：

γ^0*0.0 + γ^1*0.0 + γ^2*1.0 + γ^3*1.0 + γ^4*1.0 + ...
= γ^2 * (1.0 + γ + γ^2 + ...)
= γ^2 * V(G)

在达到目标步骤之前，您将获得零中间奖励。因此，这等效于将G的值折价两个时间步长。