软角色批评算法如何处理策略梯度?

时间:2018-12-20 12:32:41

标签: reinforcement-learning

所以我正在阅读软演员批评论文https://arxiv.org/pdf/1801.01290.pdf

参与者使用随机策略,该策略从分布中采样。神经网络用于近似策略。作者没有真正对动作进行“采样”,而是将网络的输入扩展为状态和噪声向量。

T

其中x是噪声矢量,例如[x1,x2]

那么,我认为概率为at = fφ(x; st)

这意味着熵πφ(at|s) is p(x1)*p(x2)与参数φ或at不相关

因此,本文提供了政策梯度

log πφ(at|s)

可以简化为

∇φJπ(φ) = ∇φ log πφ(at|st)
+ (∇at log πφ(at|st) − ∇at Q(st, at)) * ∇φ fφ(x; st)

与DDPG相同。
那我在哪里弄错了?有人帮我吗?

0 个答案:

没有答案