从MDP的绩效目标推导V(s)和Q(s,a)

时间:2019-06-22 12:14:04

标签: math machine-learning artificial-intelligence mathematical-optimization reinforcement-learning

我正在考虑Policy Optimization with Model-based Explorations的第2节有关V(s)和Q(s,a)的推导

  

代理的目标是从受限制的位置找到策略π∗   参数化的政策功能系列,可最大程度地发挥其作用   性能

enter image description here

本文在等式2中陈述了绩效目标,其定义如下:

  

其中J(π)是定义为的性能目标

enter image description here

接下来,作者创建此任意函数(等式3),定义为:

  

为方便起见,让ρ   π   (s)表示   政策π引起的(非标准化)折现累积状态分布,

enter image description here

由于某种原因,他们使用它来获得以下信息:

  

然后,性能目标可以重写为

enter image description here

此外,他们基于先前的推导找到了以下内容。

enter image description here

enter image description here

我的问题如下:

  1. 有人可以向我解释如何构建此rho函数
  2. 他们如何构造新的J函数?
  3. 基于新的J函数,他们如何从中构造Q?
  4. 此外,我以前没有见过V的这种表示法,作者在这里做什么?

0 个答案:

没有答案