lambda可以与非政策强化学习和体验重播一起使用吗?

时间:2017-12-11 18:10:05

标签: reinforcement-learning

DQN使用非政策性RL来从通过遵循任何政策收集的经验数据中学习最佳策略,例如观察专家,以前的非最优政策等。

体验是以下形式的数据集合:

(s1,a1,r2,s2)

此处r2是执行a1后立即收到的实际奖励。

这些经验用于设置形式的监督学习示例:

净输入:(s1,a1),净目标:r2 + gamma * argmax(a,Q(s2,a)))

可以使用具有资格跟踪的lambda来计算r2吗?我猜它不能,因为这会使r2依赖于用于生成体验的策略,这不是正在学习的策略。

lambda是否仅适用于on-policy RL?

1 个答案:

答案 0 :(得分:1)

你是正确的,使用 off-policy 强化学习算法,应考虑一些注意事项来应用资格跟踪。原因正是你所说的。

但是,即使它的效率低于 on-policy 方法,跟踪在 off-policy algos中也很有用。在Sutton & Barto's book (Chapter 7. Elegibility traces, Section 6)中出现了对Q学习案例的一个很好的解释,可以应用于其他案例:

  

回想一下,Q-learning是一种非政策性的方法,意思是   所了解的政策不一定与用于选择的政策相同   动作。特别是,Q-learning了解贪婪的政策   虽然它通常遵循涉及探索性的政策   动作 - 偶尔选择不理想的动作   根据 。因此,需要特别小心   引入资格痕迹。

     

假设我们正在备份状态 - 动作对。假设   在接下来的两个时间步骤中,代理选择贪婪动作,但是打开   第三,当时,代理商选择了一个探索性的,不合理的   行动。在了解我们可以使用的贪婪政策的价值时   只要贪婪的政策存在,后续经验   紧随其后。因此,我们可以使用一步和两步返回,但不是,   在这种情况下,三步返回。 -step返回所有no   更长时间与贪婪的政策有任何必要的关系。