应用错误收集

强化学习：演员批评总是比政策梯度法更好吗？

时间：2020-02-10 13:59:20

标签： machine-learning artificial-intelligence reinforcement-learning

我是强化学习的新手，我想尝试编写自己的小型图书馆代码，我想知道是否存在实施策略梯度的任何理由。

谢谢！

1 个答案:

答案 0 :(得分：1)

actor-critic是一种策略梯度算法。除非您使用的术语与我惯用的术语不同。

在策略梯度算法中，我们采用在某些参数上参数化的策略，根据所采取的操作找到策略的梯度，然后朝该梯度更新策略参数。

演员评论家正是这样做的。

在actor-critic中，还会计算值函数并影响更新。但是，它仍然是一种策略梯度算法。