偏离政策的行为者批评者:目标函数依赖于行为政策状态分布的理由是什么?

时间:2018-10-19 12:45:37

标签: machine-learning reinforcement-learning

在Degris等人中。 (2012)论文Off-Policy Actor-Critic中,目标函数 Jb 被定义为目标政策的价值函数,是行为政策 b < / em> :

  

J_b(\pi) = \sum_{s \in \mathcal S} d^b(s)V^{\pi_\theta}(s)

但是,通常的目标是在目标政策π的状态分布上平均的。在本文中,我也找不到任何理由,为什么最大化此目标 Jb 会改善,因为这是我们的真实数量我相信有兴趣。

您能提供任何见识,解释或理由吗,为什么最大化 Jb 是正确的选择?

0 个答案:

没有答案