应用错误收集

你是正确的，使用 off-policy 强化学习算法，应考虑一些注意事项来应用资格跟踪。原因正是你所说的。

但是，即使它的效率低于 on-policy 方法，跟踪在 off-policy algos中也很有用。在Sutton & Barto's book (Chapter 7. Elegibility traces, Section 6)中出现了对Q学习案例的一个很好的解释，可以应用于其他案例：

回想一下，Q-learning是一种非政策性的方法，意思是   所了解的政策不一定与用于选择的政策相同   动作。特别是，Q-learning了解贪婪的政策   虽然它通常遵循涉及探索性的政策   动作 - 偶尔选择不理想的动作   根据。因此，需要特别小心   引入资格痕迹。

假设我们正在备份状态 - 动作对。假设   在接下来的两个时间步骤中，代理选择贪婪动作，但是打开   第三，当时，代理商选择了一个探索性的，不合理的   行动。在了解我们可以使用的贪婪政策的价值时   只要贪婪的政策存在，后续经验   紧随其后。因此，我们可以使用一步和两步返回，但不是，   在这种情况下，三步返回。 -step返回所有no   更长时间与贪婪的政策有任何必要的关系。

lambda可以与非政策强化学习和体验重播一起使用吗？

1 个答案: