MaxQ是所有可能的奖励之和还是最高可能的奖励?

时间:2019-07-01 15:53:08

标签: reinforcement-learning q-learning

我正在编写一个简单的q学习示例,要更新q值,您需要一个maxQ'。

我不确定maxQ'是指所有可能的奖励之和还是最高的奖励:

enter image description here

1 个答案:

答案 0 :(得分:2)

在状态Q-values的所有可能动作中,最大值为s'。基本上,对于状态为max的所有有效操作Q(s',a'),您需要对所有a'进行s'的处理。