代表赛车示例马尔可夫过程的状态空间图

时间:2017-10-17 06:56:27

标签: state-machine markov-chains markov

有没有人可以帮助我设计伯克利CS188赛车示例马尔可夫决策过程的状态空间图。

赛车的例子 enter image description here

例如,我可以执行100个操作,并且我希望运行值迭代以获得最佳策略以最大化我的奖励。

当我只有3种状态(冷却,温暖和过热)时,我不知道如何添加“结束”状态并完成MDP。

我正在考虑拥有100个Cool状态和100个Warm状态,例如来自Cool1,你可以进入Cool2,Warm2或Overheated等等。 在此示例中,接近0的状态值高于接近100的状态。

我在MDP中遗漏了什么吗?

1 个答案:

答案 0 :(得分:0)

应该只有3种可能的状态。 "酷"和#34;温暖"国家是经常性的,并且过热"国家正在吸收,因为离开该州的概率为0。

对于"酷"你可以有两个动作,慢或快。和#34;温暖"状态,如问题陈述中所述。可以从图表中轻松建立概率转移矩阵和步骤奖励。例如,P(快速,从冷到暖)= 0.5,R(快速,从冷到暖)= 2。

根据目标,您可以将其解析为有限地平线或无限地平面MDP。