所以我正在阅读软演员批评论文https://arxiv.org/pdf/1801.01290.pdf
参与者使用随机策略,该策略从分布中采样。神经网络用于近似策略。作者没有真正对动作进行“采样”,而是将网络的输入扩展为状态和噪声向量。
T
其中x是噪声矢量,例如[x1,x2]
那么,我认为概率为at = fφ(x; st)
。
这意味着熵πφ(at|s) is p(x1)*p(x2)
与参数φ或at不相关
因此,本文提供了政策梯度
log πφ(at|s)
可以简化为
∇φJπ(φ) = ∇φ log πφ(at|st)
+ (∇at log πφ(at|st) − ∇at Q(st, at)) * ∇φ fφ(x; st)
与DDPG相同。
那我在哪里弄错了?有人帮我吗?