H,我正在追随David Silver的lecture on policy gradients,但是在引入分数功能时很难获得他的观点。
在时间33:44时,他证明使用似然比技巧的理由如下:“通过以这种方式重写梯度,我们就可以得出期望值。计算此事物的期望值很困难,但是计算这件事很容易,因为我们在这里有此政策,这是我们正在遵循的政策。”
因此,我对这张幻灯片的问题如下
然后,当我们过渡到next slide时,他显示了softmax策略的得分函数。我完全不知道他是怎么得出的……仅仅是微积分吗?您能否显示步骤?
谢谢:)