应用错误收集

Q-Learning算法的实现是递归的吗？

时间：2014-12-04 11:44:21

标签： algorithm recursion reinforcement-learning q-learning

我正在尝试实施Q-Learning。 here的一般算法如下

enter image description here

声明

enter image description here

我只是没有得到它，我应该为所有下一个状态实现原始伪代码递归的上述声明，当前状态/操作可以引导我们并最大化每个时间

或者只是从动作状态Q值表中选择具有当前操作的下一个状态的最大值？

提前致谢。

1 个答案:

答案 0 :(得分：1)

所有公式都表明，在步骤t+1上，您使用步骤t中的状态操作值和当前状态的所有操作的最大值来更新状态操作值