标签: machine-learning reinforcement-learning
在Degris等人中。 (2012)论文Off-Policy Actor-Critic中,目标函数 Jb 被定义为目标政策的价值函数,是行为政策 b < / em> :
但是,通常的目标Jπ是在目标政策π的状态分布上平均的。在本文中,我也找不到任何理由,为什么最大化此目标 Jb 会改善Jπ,因为这是我们的真实数量我相信有兴趣。
您能提供任何见识,解释或理由吗,为什么最大化 Jb 是正确的选择?