应用错误收集

所以我正在阅读软演员批评论文https://arxiv.org/pdf/1801.01290.pdf

参与者使用随机策略，该策略从分布中采样。神经网络用于近似策略。作者没有真正对动作进行“采样”，而是将网络的输入扩展为状态和噪声向量。

其中x是噪声矢量，例如[x1，x2]

那么，我认为概率为at = fφ(x; st)。

这意味着熵πφ(at|s) is p(x1)*p(x2)与参数φ或at不相关

因此，本文提供了政策梯度

log πφ(at|s)

可以简化为

∇φJπ(φ) = ∇φ log πφ(at|st)
+ (∇at log πφ(at|st) − ∇at Q(st, at)) * ∇φ fφ(x; st)

与DDPG相同。
那我在哪里弄错了？有人帮我吗？