alt text http://img693.imageshack.us/img693/724/markov.png
我对这里的一些观点感到有些困惑:
答案 0 :(得分:4)
有一种处理大多数MDP问题的模式,但我认为你可能已经省略了问题描述中的一些信息,很可能与你试图达到的状态或者剧集的方式有关。结束(如果你跑掉网格的边缘会发生什么)。我尽力回答你的问题,但我附上了我用来处理这类问题的程序的初级读本。
首先,效用是一个相当抽象的度量,衡量你想要在给定状态下的数量。即使用简单的启发式算法(欧几里德或曼哈顿距离)测量效用,也绝对有可能有两个具有相同效用的状态。在这种情况下,我假设效用价值和奖励是可以互换的。
从长远来看,这些问题的目标往往是,你如何最大化你的预期(长期)奖励?学习率,伽玛,控制你的重点是多少在当前状态与你希望结束的地方之间 - 实际上你可以将伽玛视为一个频谱,'在这个时间步长中做最有益的事情到另一个极端< em>'探索我的所有选择,然后回到最好的那个'。 Sutton和Barto在reinforcement learning的书中有一些非常好的explanations如何运作。
在开始之前,请回顾一下问题并确保您可以放心地回答以下问题。
那么问题的答案呢?
Start State Action Final State Probability --------------------------------------------------- (0,0) E (0,0) 0.3 (0,0) E (1,0) 0.7 (0,0) E (2,0) 0 ... (0,0) E (0,1) 0 ... (0,0) E (4,4) 0 (0,0) N (0,0) 0.3 ... (4,4) W (3,4) 0.7 (4,4) W (4,4) 0.3
我们如何检查这个问题是否有意义?
编辑。回答转换概率到目标状态的请求。以下表示法假定
P( v=(3,3) | u =(2,3), a=E ) = 0.7 P( v=(3,3) | u =(4,3), a=W ) = 0.7 P( v=(3,3) | u =(3,2), a=N ) = 0.7 P( v=(3,3) | u =(3,4), a=S ) = 0.7 P( v=(3,3) | u =(3,3) ) = 0.3
答案 1 :(得分:1)
ad.1)可能并不是机器人总是要移动 - 即那些30%是“啊,现在我休息一下”或“根本没有动力去移动” ”
答案 2 :(得分:0)
我已将此问题表述为有限地平线马尔可夫决策过程,并通过策略迭代解决了这个问题。在每次迭代的右侧,都有一个颜色编码的网格表示,表示每个州的推荐行动以及原始的奖励网格/矩阵。
回顾第4阶段的最终政策/策略。它是否符合您的直觉?