Question

让我们假设我们的代理人可以沿着xx和yy轴移动。在每个点上，他都可以向上，向下，向右和向左移动。所以我们的状态空间可以用（x，y）定义，我们在每个点的动作由（向上，向下，向右，向左）给出。让我们假设无论我们的经纪人做了什么动作都会让他撞墙，我们都会给他一个-1的负面奖励，并让他回到他以前的状态。如果他在房间的中心发现一个傀儡他赢得+10奖励。

当我们为给定的状态/动作对更新我们的QValue时，我们看到在新状态下可以执行哪些操作并计算可以到达的最大QValue是什么，因此我们可以更新我们的Q（s ，a）我们当前的州/行动的价值。这意味着，如果我们在点（10,10）中有一个目标状态，那么它周围的所有状态都会随着它们越来越远而变得越来越小QValue。现在，在与墙壁的关系中，在我看来同样不是真的。

当特工击中一堵墙时（让我们假设他在位置（0,0）并执行UP动作），他将获得该状态/动作奖励-1，从而获得-1的QValue。

现在，如果稍后我处于状态（0,1），并且假设状态（0,0 0）的所有其他动作都为零，则在为行动LEFT计算（0,1）的QValue时，它将按以下方式计算：

Q([0,1], LEFT) = 0 + gamma * (max { 0, 0, 0, -1 } ) = 0 + 0 = 0

这就是说，撞墙后不会传播到附近的州，这与你积极的奖励状态相反。

在我的视觉中，这看起来很奇怪。起初我认为找到给予负面奖励的状态/行动对在学习方面与积极奖励一样好，但从我上面所示的例子来看，这种说法似乎并不成立。算法中似乎存在偏差，因为它更多地考虑积极奖励而不是积极奖励。

这是QLearning的预期行为吗？难道奖励不应该和积极奖励一样重要吗？什么是“解决方法”呢？

Answer 1

负反馈仅在特定行动的唯一可能结果时传播。

这是故意的还是无意的我不知道。

Answer 2

你可以通过将默认奖励从0增加到1，将目标奖励从10增加到11，将惩罚从-1增加到0来避免负面奖励。

有很多关于Q学习的科学出版物，所以我确信还有其他的表述会产生负面反馈。

编辑：我坚持认为，这并没有改变我之前所说的行为。我的思维过程是负反馈的表达可以被没有反映的表达所取代。

您观察的原因是您对行为的结果或所处的状态没有不确定性，因此您的代理人总是可以选择其认为具有最佳奖励的行动（因此，所有行动的最大Q值）未来的行动）。这就是为什么你的负面反馈不会传播的原因：代理人将来会避免这种行为。

但是，如果您的模型会包含对您的行为结果的不确定性（例如，总是有10％的概率随机移动），您的学习规则应该整合所有可能的未来奖励（基本上取代最大值）通过加权和）。在这种情况下，负反馈也可以传播（这就是为什么我认为它应该是可能的：p）。此类模型的示例为POMDPs。

Answer 3

你的问题在“强化学习：简介”一书中得到了解答，其中有一节“最大化偏见和双重学习”。

“Q-Learing”算法有一个缺点，即最大估计值被隐含地用作最大值的估计值，这可能导致显着的正偏差。

“双Q学习”算法可以避免最大化偏差并解决您的问题，您需要学习两个独立的估计，称为Q_1（a）和Q_2（a）。在这里，我为您粘贴伪代码： Double Q-Learning

QLearning中的负面奖励

3 个答案: