应用错误收集

H，我正在追随David Silver的lecture on policy gradients，但是在引入分数功能时很难获得他的观点。

在时间33:44时，他证明使用似然比技巧的理由如下：“通过以这种方式重写梯度，我们就可以得出期望值。计算此事物的期望值很困难，但是计算这件事很容易，因为我们在这里有此政策，这是我们正在遵循的政策。”

因此，我对这张幻灯片的问题如下

然后，当我们过渡到next slide时，他显示了softmax策略的得分函数。我完全不知道他是怎么得出的……仅仅是微积分吗？您能否显示步骤？

谢谢:)