为什么“信任区域策略优化”是一种基于策略的算法?

时间:2019-03-27 06:30:21

标签: artificial-intelligence reinforcement-learning

我想知道为什么信任区域策略优化是一种按策略算法?

我认为,在TRPO中,我们通过旧政策进行抽样并更新新政策,并应用重要性抽样来纠正偏差。因此,它更像是一种非策略算法。 但是最近,我读了一个paper,上面写着:

  

与非策略算法相比,基于策略的方法需要   根据当前遵循的函数更新函数逼近器   政策。特别是,我们将考虑信任区域   策略优化,传统策略梯度的扩展   自然梯度方向的方法。

我有什么误解吗?

1 个答案:

答案 0 :(得分:0)

on-policy 方法的主要特征在于,它们必须使用估计的策略才能与环境交互。在信任区域策略优化的情况下,它有效地使用当前策略获取样本(即与环境交互),然后更新策略并在下一次迭代中使用新的策略估计。

因此,该算法在学习过程中使用的是估计策略,这是 on-policy 方法的定义。