简单的Markov决策过程计算概率

时间:2018-12-07 08:54:36

标签: math artificial-intelligence discrete-mathematics

enter image description here

该图显示了一个4x3的随机网格世界。四个动作可用于 代理商,即北,南,西,东。对于每个动作,代理都会前进 概率为0.8,分别以0.1的概率左移和右移。在 状态(4,2)和(4,3),唯一的动作是退出,给出-1和+1的奖励。 离开状态S时,代理会获得R(S)的奖励,该奖励可能为负 或正面。在此设置下,回答以下问题。

  1. 计算动作序列可以从(1,1)到达哪些状态 [北,北,东]以及具有什么概率。

  2. 假设对于所有S,R(S)= +2,最佳策略是什么?

因此,我的老师给了我们这些练习和解决方案: 第一个问题 enter image description here 第二个问题 enter image description here

但是我不知道他是如何计算问题的值的,有人可以解释一下计算过程吗?

0 个答案:

没有答案