该图显示了一个4x3的随机网格世界。四个动作可用于 代理商,即北,南,西,东。对于每个动作,代理都会前进 概率为0.8,分别以0.1的概率左移和右移。在 状态(4,2)和(4,3),唯一的动作是退出,给出-1和+1的奖励。 离开状态S时,代理会获得R(S)的奖励,该奖励可能为负 或正面。在此设置下,回答以下问题。
计算动作序列可以从(1,1)到达哪些状态 [北,北,东]以及具有什么概率。
假设对于所有S,R(S)= +2,最佳策略是什么?
因此,我的老师给了我们这些练习和解决方案: 第一个问题 第二个问题
但是我不知道他是如何计算问题的值的,有人可以解释一下计算过程吗?