reinforcement-learning - MaxQ是所有可能的奖励之和还是最高可能的奖励？ - Thinbug

MaxQ是所有可能的奖励之和还是最高可能的奖励？

时间：2019-07-01 15:53:08

标签： reinforcement-learning q-learning

我正在编写一个简单的q学习示例，要更新q值，您需要一个maxQ'。

我不确定maxQ'是指所有可能的奖励之和还是最高的奖励：

1 个答案:

答案 0 :(得分：2)

在状态Q-values的所有可能动作中，最大值为s'。基本上，对于状态为max的所有有效操作Q(s',a')，您需要对所有a'进行s'的处理。