从看到的过渡中确定MDP

时间:2018-04-21 14:17:34

标签: artificial-intelligence policy reinforcement-learning markov-decision-process

马尔可夫决策过程中出现了以下转变。试着确定它

 R  A  S′ S

 0  U  C  B
-1  L  E  C
 0  D  C  A
-1  R  E  C
 0  D  C  A
+1  R  D  C
 0  U  C  B
+1  R  D  C

我需要找到状态,转换,奖励和转换概率。 我已经解决了除了概率之外的所有问题,我不知道如何计算它们 如果有人可以提供帮助,我只需要知道从哪里开始

1 个答案:

答案 0 :(得分:1)

对于州B,操作U始终会产生新状态C。所以,P(C|B,U)=1(您可能也会认为P(C|B)=1)。 P(D|C,R)=2/3因为在三个案例中,有两个案例R州的C行动导致了D