有没有人可以帮助我设计伯克利CS188赛车示例马尔可夫决策过程的状态空间图。
赛车的例子例如,我可以执行100个操作,并且我希望运行值迭代以获得最佳策略以最大化我的奖励。
当我只有3种状态(冷却,温暖和过热)时,我不知道如何添加“结束”状态并完成MDP。
我正在考虑拥有100个Cool状态和100个Warm状态,例如来自Cool1,你可以进入Cool2,Warm2或Overheated等等。 在此示例中,接近0的状态值高于接近100的状态。
我在MDP中遗漏了什么吗?
答案 0 :(得分:0)
应该只有3种可能的状态。 "酷"和#34;温暖"国家是经常性的,并且过热"国家正在吸收,因为离开该州的概率为0。
对于"酷"你可以有两个动作,慢或快。和#34;温暖"状态,如问题陈述中所述。可以从图表中轻松建立概率转移矩阵和步骤奖励。例如,P(快速,从冷到暖)= 0.5,R(快速,从冷到暖)= 2。
根据目标,您可以将其解析为有限地平线或无限地平面MDP。