Q-Learning算法的实现是递归的吗?

时间:2014-12-04 11:44:21

标签: algorithm recursion reinforcement-learning q-learning

我正在尝试实施Q-Learning。 here的一般算法如下

enter image description here

声明

enter image description here

我只是没有得到它,我应该为所有下一个状态实现原始伪代码递归的上述声明,当前状态/操作可以引导我们并最大化每个时间

或者只是从动作状态Q值表中选择具有当前操作的下一个状态的最大值

提前致谢。

1 个答案:

答案 0 :(得分:1)

所有公式都表明,在步骤t+1上,您使用步骤t中的状态操作值和当前状态的所有操作的最大值来更新状态操作值