我试图理解为什么可以将策略改进定理应用于epsilon-greedy策略的证据。
证明从数学定义开始-
我对证明的第一行感到困惑。
该方程式是Q(s,a)的Bellman期望方程,而V(s)和Q(s,a)遵循--p
那么我们怎么才能得出证明的第一行呢?
答案 0 :(得分:0)
最优控制问题最早是在1950年代提出的。问题是设计一个控制器来最大化或最小化目标函数。理查德·贝尔曼(Richard Bellman)通过引入贝尔曼方程式来解决该最优控制问题:
其中的价值等于奖励的折扣总和。如果我们第一次迈出第一步,就会得到以下结果:
随后,经典的强化学习基于马尔可夫决策过程,并假设所有状态转换都是已知的。因此,等式变为:
也就是说,总和等于从该状态开始的所有可能转换的总和,乘以获得新状态的奖励。
以上等式以值形式编写。有时,我们希望值也可以是动作的函数,从而创建动作值。上述方程式转换为作用值形式为:
此等式的最大问题是,在现实生活中,过渡概率实际上是未知的。除非问题非常简单,否则不可能知道每个状态的过渡概率。为了解决这个问题,我们通常只取未来折价部分的最大值。也就是说,我们假设我们将来会表现最佳,而不是取所有可能情况的平均值。
但是,在实际情况下,环境可能是高度随机的。因此,在任何状态下对动作值函数的最佳估计就是一个估计。而概率后案例是期望值。因此,给您:
方程式中的奖励符号为t + 1。这主要是由于不同的解释。以上证明仍然适用于您的表示法。简而言之,直到下一个采样时间,您才知道回报。