马尔可夫决策过程的问题

时间:2010-01-27 15:56:32

标签: artificial-intelligence markov

alt text http://img693.imageshack.us/img693/724/markov.png

我对这里的一些观点感到有些困惑:

  1. 在70%的时间内尝试某项行动会成功是什么意思?这是否意味着每次他尝试执行动作A时,70%的时间会执行该动作A而另外30%执行导致相同状态的动作,或者就像他总是这样做行动A,但只有30%的时间他没有做到这一点?我希望我能说清楚自己:(
  2. 如何使用相同的实用程序连续几个状态?理论上,效用不应该总是减少,你离奖励的国家越远?
  3. 只知道我上面提供的信息, 有可能推断出什么是 折扣系数(gamma)?如果是,怎么样?
  4. 是否有可能计算出来 各州的奖励?怎么样?

3 个答案:

答案 0 :(得分:4)

有一种处理大多数MDP问题的模式,但我认为你可能已经省略了问题描述中的一些信息,很可能与你试图达到的状态或者剧集的方式有关。结束(如果你跑掉网格的边缘会发生什么)。我尽力回答你的问题,但我附上了我用来处理这类问题的程序的初级读本。

首先,效用是一个相当抽象的度量,衡量你想要在给定状态下的数量。即使用简单的启发式算法(欧几里德或曼哈顿距离)测量效用,也绝对有可能有两个具有相同效用的状态。在这种情况下,我假设效用价值和奖励是可以互换的。

从长远来看,这些问题的目标往往是,你如何最大化你的预期(长期)奖励?学习率,伽玛,控制你的重点是多少在当前状态与你希望结束的地方之间 - 实际上你可以将伽玛视为一个频谱,'在这个时间步长中做最有益的事情到另一个极端< em>'探索我的所有选择,然后回到最好的那个'。 Sutton和Barto在reinforcement learning的书中有一些非常好的explanations如何运作。


在开始之前,请回顾一下问题并确保您可以放心地回答以下问题。

  1. 什么是州?有多少州?
  2. 什么是动作?有多少行动?
  3. 如果你从状态u开始,并且你应用了一个动作a,那么达到新状态的概率是多少?
  4. 那么问题的答案呢?

    1. 状态是向量(x,y)。网格是5乘5,所以有25个州。
    2. 有四种可能的行动,{E,N,S,W}
    3. 在应用合适的动作之后成功到达相邻状态的概率是0.7,不移动的概率(保持在相同状态是0.3)。假设(0,0)是左上角的单元格,(4,4)是右下角的单元格,下表显示了所有可能过渡的一小部分。
    4. Start State Action           Final State    Probability
      ---------------------------------------------------
      (0,0)           E               (0,0)          0.3
      (0,0)           E               (1,0)          0.7
      (0,0)           E               (2,0)          0
      ...
      (0,0)           E               (0,1)          0
      ... 
      (0,0)           E               (4,4)          0
      (0,0)           N               (0,0)          0.3
      ...
      (4,4)           W               (3,4)          0.7
      (4,4)           W               (4,4)          0.3
      
      

      我们如何检查这个问题是否有意义?

      1. 检查表格是否有适当的条目数。在5乘5网格上有25个状态和4个动作,因此该表应该有100个条目。
      2. 检查以确保对于开始状态/操作对,只有两个条目具有非零概率发生。

      3. 编辑。回答转换概率目标状态的请求。以下表示法假定

        • v是最终状态
        • 你是源州
        • a是行动,未提及,暗示所采取的行动无关紧要。
        P( v=(3,3) | u =(2,3), a=E ) = 0.7
        P( v=(3,3) | u =(4,3), a=W ) = 0.7
        P( v=(3,3) | u =(3,2), a=N ) = 0.7
        P( v=(3,3) | u =(3,4), a=S ) = 0.7
        P( v=(3,3) | u =(3,3) ) = 0.3
        

答案 1 :(得分:1)

ad.1)可能并不是机器人总是要移动 - 即那些30%是“啊,现在我休息一下”或“根本没有动力去移动” ”

答案 2 :(得分:0)

我已将此问题表述为有限地平线马尔可夫决策过程,并通过策略迭代解决了这个问题。在每次迭代的右侧,都有一个颜色编码的网格表示,表示每个州的推荐行动以及原始的奖励网格/矩阵。

回顾第4阶段的最终政策/策略。它是否符合您的直觉?

enter image description here

enter image description here

enter image description here

enter image description here

enter image description here