政策的国家价值和国家行动价值 - 政策的贝尔曼方程

时间:2018-02-22 17:05:37

标签: equation policy reinforcement-learning mdp markov-decision-process

我刚开始进行深度强化学习,我正试图破坏这个概念。

我有这个确定性的贝尔曼方程

deterministic bellman equation

当我从MDP实现stochastacity时,我得到2.6a

Implement MDP in deterministic bellman

我的等式是这个假设是正确的。我看到这个实现2.6a没有状态值函数的策略符号。但对我而言,这是没有意义的,因为我正在使用我可能最终进入的不同后续步骤的概率。我认为这与说政策是一样的。如果是2.6a是正确的,我可以假设其余的(2.6b和2.6c),因为那时我想写这样的动作状态函数:

State action function with policy

我这样做的原因是因为我想从确定性的观点向非确定性的观点解释自己。

我希望那里有人可以提供帮助!

最好的问候SørenKoch

2 个答案:

答案 0 :(得分:1)

是的,你的假设是完全正确的。在“强化学习”字段中,值函数是通过启动特定状态并遵循策略π获得的返回值。所以是的,严格来说,它应该伴随政策标志π。

Bellman方程基本上递归地表示值函数。但是,应该注意到有两种Bellman方程:

  • Bellman最优性方程,它表征最优值函数。在这种情况下,值函数隐含地与最优策略相关联。此等式具有非线性max运算符,并且是您发布的运算符。 (最佳)策略依赖性有时用星号表示如下: enter image description here 也许一些简短的文本或论文忽略了这种依赖性,假设它很明显,但我认为任何RL教科书应该最初包括它。例如,请参阅Sutton & BartoBusoniu et al。书籍。

  • Bellman方程式,它表征一个值函数,在这种情况下与任何策略π相关联: enter image description here

在您的情况下,您的等式2.6基于Bellman方程,因此它应该删除max运算符并包括所有动作和可能的下一个状态的总和。来自Sutton & Barto(遗憾的是你的问题改变了符号,但我认为它很明显): enter image description here

答案 1 :(得分:1)

不,值函数V(s_t)不依赖于策略。您可以在等式中看到,它是根据最大化数量的操作a_t来定义的,因此它不是根据任何策略选择的操作来定义的。

在非确定性/随机情况下,您将得到概率乘以状态值的总和,但这仍然独立于任何策略。总和仅对不同可能的未来状态求和,但每次乘法都涉及完全相同(与策略无关)的动作a_t。您有这些概率的唯一原因是因为在非确定性情况下,特定状态中的特定操作可能导致多种不同的可能状态之一。这不是因为政策,而是由于环境本身的随机性。

还存在诸如政策的价值功能之类的东西,并且在谈论时应该包括政策的符号。但这通常是仅仅是“价值函数”的含义,而且与您向我们展示的等式不符。依赖于策略的函数会将max_{a_t}替换为所有操作a的总和,并且在总和中pi(s_t, a)选择操作pi的概率a s_t在州<video id="video" autoplay loop muted width="100%">