奖励政策在强化学习中的重要性是什么?

时间:2017-11-06 09:44:19

标签: artificial-intelligence reinforcement-learning q-learning

我们为达到目标分配+1奖励,为达到不想要的状态分配-1。

是否有必要为接近目标的行动提供+0.01奖励以及采取不接受行动的-0.01奖励?

上述奖励政策的重大变化是什么?

1 个答案:

答案 0 :(得分:3)

来自Sutton和Barto的书,Section 3.2 Goals and Rewards

  

因此,我们建立的奖励真正表明我们想要实现的目标至关重要。特别是,奖励信号不是向代理商提供关于如何实现我们想要做的事情的先前知识的地方.3.4例如,国际象棋代理人应该仅仅因为实际获胜而获得奖励,而不是为了实现子目标。拿走对手的棋子或控制棋盘中心。如果实现这些类型的子目标得到奖励,那么代理可能会找到一种方法来实现它们而不实现真正的目标。例如,即使以失去游戏为代价,它也可能找到一种方法来获取对手的棋子。奖励信号是您与机器人沟通的方式,而不是您希望如何实现。

因此,一般来说,避免通过奖励函数引入先验知识是一个好主意,因为它会产生不希望的结果。

然而,已知通过奖励功能引导代理学习过程可以改善RL性能。事实上,在一些复杂的任务中,有必要首先引导代理进入次要(更容易)的目标,然后更改奖励以学习主要目标。这种技术称为reward shaping。在Randløv和Alstrøm的论文中可以找到一个古老但有趣的例子:Learning to Drive a Bicycle using Reinforcement Learning and Shaping