应用错误收集

如何在Q学习中计算MaxQ？

时间：2019-10-20 13:32:28

标签： c++ reinforcement-learning q-learning

我正在实现Q学习，特别是Bellman方程。

我正在使用website中的版本来指导他解决问题，但我有一个疑问：对于maxQ，我是否使用新状态（s'）的所有Q表值（在我的情况下为4种可能的操作（a'），每个都有各自的值）或Q表值的总和来计算最大奖励采取行动（a'）时的所有职位？

换句话说，我是使用我可以采取的所有可能动作中的最高Q值，还是所有“相邻”平方的总Q值？

1 个答案:

答案 0 :(得分：1)

对于所有可能采取的措施，您始终使用最大Q值。

这个想法是选择下一个状态具有最大（最佳）Q值的动作，以保持在最佳策略Qpi *中。