QLearning和永无止境的剧集

时间:2009-12-02 23:53:14

标签: artificial-intelligence reinforcement-learning

让我们假设我们有一个机器人可以移动的(x,y)平面。现在我们将世界的中间定义为目标状态,这意味着一旦到达该状态,我们将给予机器人100的奖励。

现在,让我们说有4种状态(我将称之为A,B,C,D)可以导致目标状态。

我们第一次进入A并进入目标状态时,我们将更新我们的QValues表如下:

Q(state = A, action = going to goal state) = 100 + 0

有两件事情可能发生。我可以在这里结束这一集,并开始另一个机器人必须再次找到目标状态,或者即使在我找到目标状态后我仍然可以继续探索世界。如果我尝试这样做,我会看到一个问题。如果我处于目标状态并返回状态A,那么Qvalue将是以下内容:

Q(state = goalState, action = going to A) = 0 + gamma * 100

现在,如果我尝试再次从A:

再次进入目标状态
Q(state = A, action = going to goal state) = 100 + gamma * (gamma * 100)

这意味着如果我继续这样做,因为0< = gamma< = 0,两个qValues将永远上升。

这是QLearning的预期行为吗?难道我做错了什么?如果这是预期的行为,这不能导致问题吗?我知道,概率地说,所有4个州(A,B,C和D)都将以相同的速度增长,但即便如此,这让我感到非常困难。

即使在找到目标之后允许代理人继续探索的意识与他离目标状态越近越近,更有可能处于可以在此时更新的状态。

1 个答案:

答案 0 :(得分:2)

这是预期的,因为Q估计不是预期的奖励,它是预期的回报,这是(可能通过伽玛折扣)奖励金额如果我从那里开始并遵循我的政策直到剧集结束或永远,我期望从该州/行动中获益。

如果你给我一些按钮,其中一个按钮在按下时总是产生1美元,那么按下该按钮的真正预期奖励是1美元。但按下按钮的真正预期回报是无限美元,假设我有无限多的机会按下按钮。