应用错误收集

该图显示了一个4x3的随机网格世界。四个动作可用于代理商，即北，南，西，东。对于每个动作，代理都会前进概率为0.8，分别以0.1的概率左移和右移。在状态（4,2）和（4,3），唯一的动作是退出，给出-1和+1的奖励。离开状态S时，代理会获得R（S）的奖励，该奖励可能为负或正面。在此设置下，回答以下问题。

计算动作序列可以从（1,1）到达哪些状态 [北，北，东]以及具有什么概率。
假设对于所有S，R（S）= +2，最佳策略是什么？

因此，我的老师给了我们这些练习和解决方案：第一个问题第二个问题

但是我不知道他是如何计算问题的值的，有人可以解释一下计算过程吗？

简单的Markov决策过程计算概率

0 个答案: