马尔可夫决策过程中出现了以下转变。试着确定它
R A S′ S
0 U C B
-1 L E C
0 D C A
-1 R E C
0 D C A
+1 R D C
0 U C B
+1 R D C
我需要找到状态,转换,奖励和转换概率。 我已经解决了除了概率之外的所有问题,我不知道如何计算它们 如果有人可以提供帮助,我只需要知道从哪里开始
答案 0 :(得分:1)
对于州B
,操作U
始终会产生新状态C
。所以,P(C|B,U)=1
(您可能也会认为P(C|B)=1
)。 P(D|C,R)=2/3
因为在三个案例中,有两个案例R
州的C
行动导致了D
。