我正在考虑Policy Optimization with Model-based Explorations的第2节有关V(s)和Q(s,a)的推导
代理的目标是从受限制的位置找到策略π∗ 参数化的政策功能系列,可最大程度地发挥其作用 性能
本文在等式2中陈述了绩效目标,其定义如下:
其中J(π)是定义为的性能目标
接下来,作者创建此任意函数(等式3),定义为:
为方便起见,让ρ π (s)表示 政策π引起的(非标准化)折现累积状态分布,
由于某种原因,他们使用它来获得以下信息:
然后,性能目标可以重写为
此外,他们基于先前的推导找到了以下内容。
我的问题如下: