标签: machine-learning artificial-intelligence reinforcement-learning
我是强化学习的新手,我想尝试编写自己的小型图书馆代码,我想知道是否存在实施策略梯度的任何理由。
谢谢!
答案 0 :(得分:1)
actor-critic是一种策略梯度算法。除非您使用的术语与我惯用的术语不同。
在策略梯度算法中,我们采用在某些参数上参数化的策略,根据所采取的操作找到策略的梯度,然后朝该梯度更新策略参数。
演员评论家正是这样做的。
在actor-critic中,还会计算值函数并影响更新。但是,它仍然是一种策略梯度算法。