Q学习中的探索与开发

时间:2017-01-04 08:43:26

标签: reinforcement-learning q-learning

在Q学习算法中,动作的选择取决于当前状态和Q矩阵的值。我想知道这些Q值是仅在探索步骤中更新还是在开发步骤中也会更改。

1 个答案:

答案 0 :(得分:1)

如果您阅读Q-learning算法代码,例如来自Sutton & Barto bookenter image description here

似乎很清楚,如果所选择的行为是探索性的,Q值总是独立更新。

请注意,使用 Q (例如,epsilon-greedy)&#34派生的政策,从 s 中选择 a ;意味着这种行为有时会是探索性的。