应用错误收集

时间：2019-03-27 06:30:21

标签： artificial-intelligence reinforcement-learning

我想知道为什么信任区域策略优化是一种按策略算法？

我认为，在TRPO中，我们通过旧政策进行抽样并更新新政策，并应用重要性抽样来纠正偏差。因此，它更像是一种非策略算法。但是最近，我读了一个paper，上面写着：

与非策略算法相比，基于策略的方法需要根据当前遵循的函数更新函数逼近器政策。特别是，我们将考虑信任区域策略优化，传统策略梯度的扩展自然梯度方向的方法。

我有什么误解吗？

答案 0 :(得分：0)

on-policy 方法的主要特征在于，它们必须使用估计的策略才能与环境交互。在信任区域策略优化的情况下，它有效地使用当前策略获取样本（即与环境交互），然后更新策略并在下一次迭代中使用新的策略估计。

因此，该算法在学习过程中使用的是估计策略，这是 on-policy 方法的定义。