应用错误收集

我正在考虑Policy Optimization with Model-based Explorations的第2节有关V（s）和Q（s，a）的推导

代理的目标是从受限制的位置找到策略π∗ 参数化的政策功能系列，可最大程度地发挥其作用性能

本文在等式2中陈述了绩效目标，其定义如下：

其中J（π）是定义为的性能目标

接下来，作者创建此任意函数（等式3），定义为：

为方便起见，让ρ π （s）表示政策π引起的（非标准化）折现累积状态分布，

由于某种原因，他们使用它来获得以下信息：

然后，性能目标可以重写为

此外，他们基于先前的推导找到了以下内容。

我的问题如下：