让我们假设我们的代理人可以沿着xx和yy轴移动。在每个点上,他都可以向上,向下,向右和向左移动。所以我们的状态空间可以用(x,y)定义,我们在每个点的动作由(向上,向下,向右,向左)给出。让我们假设无论我们的经纪人做了什么动作都会让他撞墙,我们都会给他一个-1的负面奖励,并让他回到他以前的状态。如果他在房间的中心发现一个傀儡他赢得+10奖励。
当我们为给定的状态/动作对更新我们的QValue时,我们看到在新状态下可以执行哪些操作并计算可以到达的最大QValue是什么,因此我们可以更新我们的Q(s ,a)我们当前的州/行动的价值。这意味着,如果我们在点(10,10)中有一个目标状态,那么它周围的所有状态都会随着它们越来越远而变得越来越小QValue。现在,在与墙壁的关系中,在我看来同样不是真的。
当特工击中一堵墙时(让我们假设他在位置(0,0)并执行UP动作),他将获得该状态/动作奖励-1,从而获得-1的QValue。
现在,如果稍后我处于状态(0,1),并且假设状态(0,0 0)的所有其他动作都为零,则在为行动LEFT计算(0,1)的QValue时,它将按以下方式计算:
Q([0,1], LEFT) = 0 + gamma * (max { 0, 0, 0, -1 } ) = 0 + 0 = 0
这就是说,撞墙后不会传播到附近的州,这与你积极的奖励状态相反。
在我的视觉中,这看起来很奇怪。起初我认为找到给予负面奖励的状态/行动对在学习方面与积极奖励一样好,但从我上面所示的例子来看,这种说法似乎并不成立。算法中似乎存在偏差,因为它更多地考虑积极奖励而不是积极奖励。
这是QLearning的预期行为吗?难道奖励不应该和积极奖励一样重要吗?什么是“解决方法”呢?
答案 0 :(得分:5)
负反馈仅在特定行动的唯一可能结果时传播。
这是故意的还是无意的我不知道。
答案 1 :(得分:2)
你可以通过将默认奖励从0增加到1,将目标奖励从10增加到11,将惩罚从-1增加到0来避免负面奖励。
有很多关于Q学习的科学出版物,所以我确信还有其他的表述会产生负面反馈。
编辑: 我坚持认为,这并没有改变我之前所说的行为。 我的思维过程是负反馈的表达可以被没有反映的表达所取代。
您观察的原因是您对行为的结果或所处的状态没有不确定性,因此您的代理人总是可以选择其认为具有最佳奖励的行动(因此,所有行动的最大Q值)未来的行动)。这就是为什么你的负面反馈不会传播的原因:代理人将来会避免这种行为。
但是,如果您的模型会包含对您的行为结果的不确定性(例如,总是有10%的概率随机移动),您的学习规则应该整合所有可能的未来奖励(基本上取代最大值)通过加权和)。在这种情况下,负反馈也可以传播(这就是为什么我认为它应该是可能的:p)。此类模型的示例为POMDPs。
答案 2 :(得分:0)
你的问题在“强化学习:简介”一书中得到了解答,其中有一节“最大化偏见和双重学习”。
“Q-Learing”算法有一个缺点,即最大估计值被隐含地用作最大值的估计值,这可能导致显着的正偏差。
“双Q学习”算法可以避免最大化偏差并解决您的问题,您需要学习两个独立的估计,称为Q_1(a)和Q_2(a)。在这里,我为您粘贴伪代码: Double Q-Learning