dynamic-programming - 具有显式价值公式的强化学习

对问题的措辞不佳表示歉意。

我的问题设置是有n个区域，i = 1，...，n。代理在时间t上对每个区域V_i的值都有明确的估计：参数的细节不是很重要，只是给定状态S的区域i的值取决于某些固定值以及代理将最终处于的状态的值（即V_j；区域j的值）。

这是我感到困惑的地方。价值函数的上述公式已经包含了未来状态的折现值和即时奖励。但是典型的强化学习算法已经包含以下术语：

我似乎错了：

由于这最后一步涉及将我的值函数公式插入TD更新方程，因此看起来很乱，这意味着要使用两次折现系数。

任何帮助我弄清我的困惑的人都表示赞赏。