标签: reinforcement-learning q-learning
在Q学习算法中,动作的选择取决于当前状态和Q矩阵的值。我想知道这些Q值是仅在探索步骤中更新还是在开发步骤中也会更改。
答案 0 :(得分:1)
如果您阅读Q-learning算法代码,例如来自Sutton & Barto book:
似乎很清楚,如果所选择的行为是探索性的,Q值总是独立更新。
请注意,使用 Q (例如,epsilon-greedy)&#34派生的政策,从 s 中选择 a ;意味着这种行为有时会是探索性的。