没有最终状态的Q学习甚至可能吗?

时间:2014-04-19 16:03:01

标签: machine-learning reinforcement-learning q-learning

我必须用Q-learning解决这个问题。 好吧,实际上我必须评估一个基于Q学习的政策。

我是一名旅游经理。

我有 n 酒店,每个酒店可以包含不同数量的人。

对于我放入酒店的每个人,我会根据我选择的房间获得奖励。

如果我想要我也可以谋杀这个人,所以它没有酒店,但它给了我不同的奖励。  (好吧,这是一个笑话......但是可以说我可以进行自我转换。所以我的房间里的人数在这个动作之后不会改变。)

  • 我的州是一个包含每家酒店人数的向量。

  • 我的动作是一个零和一个向量,它告诉我在哪里 把这个新人。

  • 我的奖励矩阵是由我为每次过渡获得的奖励形成的 国家之间(甚至自我过渡)。

现在,因为我可以获得无限数量的人(即我可以填充它但我可以继续杀死它们)如何构建Q矩阵?如果没有Q矩阵,我就无法得到政策,所以我无法对其进行评估......

我错误地看到了什么?我应该选择随机状态作为最终状态吗?我是否完全错过了这一点?

4 个答案:

答案 0 :(得分:2)

这个问题很老,但我认为值得回答。

其中一个问题是,不一定是剧集的概念,也不一定是相应的终端状态。相反,这是一个持续的问题。您的目标是在未来永远最大化您的奖励。在这种情况下,折扣系数gamma小于1,实质上指定了您对每一步的未来展望。退货被指定为未来奖励的累积折扣金额。对于情节问题,通常使用1的折扣,返回是未来奖励的累积总和,直到达到剧集结束。

要了解最佳Q,即遵循最优策略的预期回报,您必须有办法执行非策略Q学习更新。如果您使用样本转换来获取Q-learning更新,则必须指定一个行为策略,该策略在环境中执行操作以获取这些样本。要了解有关Q学习的更多信息,您应该阅读标准的RL入门教材:“强化学习:简介”,Sutton和Barto。

答案 1 :(得分:1)

RL问题本身并不需要最终状态。他们需要的是奖励状态。所以,只要你有一些奖励,我认为你很高兴。

我没有很多像这样的RL问题的XP。正如评论者所说,这听起来像一个非常巨大的国家空间。如果您对使用离散方法感到满意,那么通过限制问题的范围(有限的人数和酒店/房间)以及在较小的状态矩阵上使Q学习松散,您将获得良好的开端并了解您的问题。

或者,您可以直接进入一个可以处理无限状态空间的方法,就像神经网络一样。

根据我的经验,如果您有耐心尝试较小的问题,那么您将更好地准备解决下一个更大的问题。

答案 2 :(得分:1)

也许这不是“有可能吗?”的答案,但是......阅读有关r学习的内容,要解决这个特殊问题,你可能不仅要学习Q或V函数,还要学习rho - 随着时间推移的预期奖励Q和rho的联合学习可以产生更好的策略。

答案 3 :(得分:0)

要迭代上面的响应,使用无限状态空间,你绝对应该考虑对你的Q函数进行某种泛化。您将在无限空间中从Q函数响应中获得更多价值。您可以尝试几种不同的函数近似,无论是简单的线性回归还是神经网络。

像玛莎所说的那样,你需要有一个小于一的伽玛才能解释无限的视野。否则,您将尝试确定所有等于无穷大的N策略的适用性,这意味着您将无法衡量最优策略。

我想在这里添加的主要内容是,对于后来阅读此内容的人来说,奖励塑造的重要性。在一个无限问题中,如果没有最终的大奖励,可能会发生次优奖励循环,代理人会被“卡住”,因为某个州的奖励可能高于其在有限范围内的任何邻居(由伽玛定义。为了解决这个问题,您需要确保惩罚代理在多个相同状态下着陆以避免这些次优循环。显然,探索也是非常重要的,当问题无限时,总是需要进行一定程度的探索。