具有显式价值公式的强化学习

时间:2019-05-02 15:27:14

标签: dynamic-programming reinforcement-learning

对问题的措辞不佳表示歉意。

我的问题设置是有n个区域,i = 1,...,n。代理在时间t上对每个区域V_i的值都有明确的估计:enter image description here 参数的细节不是很重要,只是给定状态S的区域i的值取决于某些固定值以及代理将最终处于的状态的值(即V_j;区域j的值)。

这是我感到困惑的地方。价值函数的上述公式已经包含了未来状态的折现值和即时奖励。但是典型的强化学习算法已经包含以下术语: enter image description here

我似乎错了:

  1. 从V_i的随机值开始
  2. 基于这些值采取行动(例如,使用boltzman方程)
  3. 最终进入状态S'(或j区)
  4. 根据TD公式更新值

由于这最后一步涉及将我的值函数公式插入TD更新方程,因此看起来很乱,这意味着要使用两次折现系数。

任何帮助我弄清我的困惑的人都表示赞赏。

0 个答案:

没有答案