标签: algorithm recursion reinforcement-learning q-learning
我正在尝试实施Q-Learning。 here的一般算法如下
声明
我只是没有得到它,我应该为所有下一个状态实现原始伪代码递归的上述声明,当前状态/操作可以引导我们并最大化每个时间
或者只是从动作状态Q值表中选择具有当前操作的下一个状态的最大值?
提前致谢。
答案 0 :(得分:1)
所有公式都表明,在步骤t+1上,您使用步骤t中的状态操作值和当前状态的所有操作的最大值来更新状态操作值
t+1
t