如何在Q学习中计算MaxQ?

时间:2019-10-20 13:32:28

标签: c++ reinforcement-learning q-learning

我正在实现Q学习,特别是Bellman方程。Bellman equation

我正在使用website中的版本来指导他解决问题,但我有一个疑问: 对于maxQ,我是否使用新状态(s')的所有Q表值(在我的情况下为4种可能的操作(a'),每个都有各自的值)或Q表值的总和来计算最大奖励采取行动(a')时的所有职位?

换句话说,我是使用我可以采取的所有可能动作中的最高Q值,还是所有“相邻”平方的总Q值?

1 个答案:

答案 0 :(得分:1)

对于所有可能采取的措施,您始终使用最大Q值。

这个想法是选择下一个状态具有最大(最佳)Q值的动作,以保持在最佳策略Qpi *中。