标签: reinforcement-learning q-learning
我正在编写一个简单的q学习示例,要更新q值,您需要一个maxQ'。
我不确定maxQ'是指所有可能的奖励之和还是最高的奖励:
答案 0 :(得分:2)
在状态Q-values的所有可能动作中,最大值为s'。基本上,对于状态为max的所有有效操作Q(s',a'),您需要对所有a'进行s'的处理。
Q-values
s'
max
Q(s',a')
a'