我想知道为什么信任区域策略优化是一种按策略算法?
我认为,在TRPO中,我们通过旧政策进行抽样并更新新政策,并应用重要性抽样来纠正偏差。因此,它更像是一种非策略算法。 但是最近,我读了一个paper,上面写着:
与非策略算法相比,基于策略的方法需要 根据当前遵循的函数更新函数逼近器 政策。特别是,我们将考虑信任区域 策略优化,传统策略梯度的扩展 自然梯度方向的方法。
我有什么误解吗?
答案 0 :(得分:0)
on-policy 方法的主要特征在于,它们必须使用估计的策略才能与环境交互。在信任区域策略优化的情况下,它有效地使用当前策略获取样本(即与环境交互),然后更新策略并在下一次迭代中使用新的策略估计。
因此,该算法在学习过程中使用的是估计策略,这是 on-policy 方法的定义。