DQN使用非政策性RL来从通过遵循任何政策收集的经验数据中学习最佳策略,例如观察专家,以前的非最优政策等。
体验是以下形式的数据集合:
(s1,a1,r2,s2)
此处r2是执行a1后立即收到的实际奖励。
这些经验用于设置形式的监督学习示例:
净输入:(s1,a1),净目标:r2 + gamma * argmax(a,Q(s2,a)))
可以使用具有资格跟踪的lambda来计算r2吗?我猜它不能,因为这会使r2依赖于用于生成体验的策略,这不是正在学习的策略。
lambda是否仅适用于on-policy RL?
答案 0 :(得分:1)
你是正确的,使用 off-policy 强化学习算法,应考虑一些注意事项来应用资格跟踪。原因正是你所说的。
但是,即使它的效率低于 on-policy 方法,跟踪在 off-policy algos中也很有用。在Sutton & Barto's book (Chapter 7. Elegibility traces, Section 6)中出现了对Q学习案例的一个很好的解释,可以应用于其他案例:
回想一下,Q-learning是一种非政策性的方法,意思是 所了解的政策不一定与用于选择的政策相同 动作。特别是,Q-learning了解贪婪的政策 虽然它通常遵循涉及探索性的政策 动作 - 偶尔选择不理想的动作 根据 。因此,需要特别小心 引入资格痕迹。
假设我们正在备份状态 - 动作对。假设 在接下来的两个时间步骤中,代理选择贪婪动作,但是打开 第三,当时,代理商选择了一个探索性的,不合理的 行动。在了解我们可以使用的贪婪政策的价值时 只要贪婪的政策存在,后续经验 紧随其后。因此,我们可以使用一步和两步返回,但不是, 在这种情况下,三步返回。 -step返回所有no 更长时间与贪婪的政策有任何必要的关系。