应用错误收集

Q学习中的探索与开发

时间：2017-01-04 08:43:26

标签： reinforcement-learning q-learning

在Q学习算法中，动作的选择取决于当前状态和Q矩阵的值。我想知道这些Q值是仅在探索步骤中更新还是在开发步骤中也会更改。

1 个答案:

答案 0 :(得分：1)

如果您阅读Q-learning算法代码，例如来自Sutton & Barto book：

似乎很清楚，如果所选择的行为是探索性的，Q值总是独立更新。

请注意，使用 Q （例如，epsilon-greedy）＆＃34派生的政策，从 s 中选择 a ;意味着这种行为有时会是探索性的。