标签: c++ reinforcement-learning q-learning
我正在实现Q学习,特别是Bellman方程。
我正在使用website中的版本来指导他解决问题,但我有一个疑问: 对于maxQ,我是否使用新状态(s')的所有Q表值(在我的情况下为4种可能的操作(a'),每个都有各自的值)或Q表值的总和来计算最大奖励采取行动(a')时的所有职位?
换句话说,我是使用我可以采取的所有可能动作中的最高Q值,还是所有“相邻”平方的总Q值?
答案 0 :(得分:1)
对于所有可能采取的措施,您始终使用最大Q值。
这个想法是选择下一个状态具有最大(最佳)Q值的动作,以保持在最佳策略Qpi *中。