针对策略梯度的ELI5评分功能和softmax策略

时间:2018-09-21 21:41:21

标签: machine-learning reinforcement-learning

H,我正在追随David Silver的lecture on policy gradients,但是在引入分数功能时很难获得他的观点。

在时间33:44时,他证明使用似然比技巧的理由如下:“通过以这种方式重写梯度,我们就可以得出期望值。计算此事物的期望值很困难,但是计算这件事很容易,因为我们在这里有此政策,这是我们正在遵循的政策。”

因此,我对这张幻灯片的问题如下

  • 我们正在计算什么样的期望?是 pi(s,a) -在状态 s 中采取行动 a 的概率?
  • 为什么我们完全需要一个期望?
  • 为什么计算 log * pi(s,a)的期望更容易? (请举个例子)

然后,当我们过渡到next slide时,他显示了softmax策略的得分函数。我完全不知道他是怎么得出的……仅仅是微积分吗?您能否显示步骤?

谢谢:)

0 个答案:

没有答案