深度强化学习中的有效奖励范围

时间:2018-08-13 02:33:39

标签: reinforcement-learning

在DQN,Actor-Critic或A3C中选择奖励值时,是否存在选择奖励值的通用规则?

正如我简短地听到的那样,(-1〜+1)奖励是非常有效的选择。

你能告诉我任何建议和原因吗?

1 个答案:

答案 0 :(得分:0)

理想情况下,您希望归一化奖励(即0个均值和单位方差)。在您的示例中,奖励在-1到1之间,这满足此条件。我相信原因是因为它可以在更新神经网络参数时加快梯度下降,并且还可以让您的RL代理更有效地区分优劣行为。

一个例子:假设我们正在尝试建立一个越过马路的特工,如果它越过马路,它将获得1的奖励。如果被汽车撞到,它将获得-1的奖励,并且每一步产生的奖励为0。从百分比的角度来看,成功的奖励大大高于失败的奖励(被汽车撞倒)。

但是,如果我们给代理商成功过马路的奖励1,000,000,001,以及被汽车撞到的奖励999,999,999(此情况与上述情况在标准化时相同),则成功不再和以前一样同样,如果您折价如此之高的奖励,这将使两种情况的区分更加难以识别。

在DQN和其他函数逼近方法中,这尤其是个问题,因为这些方法可以概括状态,动作和奖励空间。因此,-1和1的奖励有很大的不同,但是,如果我们使用函数进行泛化,则1,000,000,001和999,999,999的奖励基本上是相同的。