对问题的措辞不佳表示歉意。
我的问题设置是有n个区域,i = 1,...,n。代理在时间t上对每个区域V_i的值都有明确的估计:
参数的细节不是很重要,只是给定状态S的区域i的值取决于某些固定值以及代理将最终处于的状态的值(即V_j;区域j的值)。>
这是我感到困惑的地方。价值函数的上述公式已经包含了未来状态的折现值和即时奖励。但是典型的强化学习算法已经包含以下术语:
我似乎错了:
由于这最后一步涉及将我的值函数公式插入TD更新方程,因此看起来很乱,这意味着要使用两次折现系数。
任何帮助我弄清我的困惑的人都表示赞赏。