应用错误收集

时间：2017-10-17 06:56:27

标签： state-machine markov-chains markov

有没有人可以帮助我设计伯克利CS188赛车示例马尔可夫决策过程的状态空间图。

赛车的例子

例如，我可以执行100个操作，并且我希望运行值迭代以获得最佳策略以最大化我的奖励。

当我只有3种状态（冷却，温暖和过热）时，我不知道如何添加“结束”状态并完成MDP。

我正在考虑拥有100个Cool状态和100个Warm状态，例如来自Cool1，你可以进入Cool2，Warm2或Overheated等等。在此示例中，接近0的状态值高于接近100的状态。

我在MDP中遗漏了什么吗？

答案 0 :(得分：0)

应该只有3种可能的状态。＆＃34;酷＆＃34;和＃34;温暖＆＃34;国家是经常性的，并且过热＆＃34;国家正在吸收，因为离开该州的概率为0。

对于＆＃34;酷＆＃34;你可以有两个动作，慢或快。和＃34;温暖＆＃34;状态，如问题陈述中所述。可以从图表中轻松建立概率转移矩阵和步骤奖励。例如，P（快速，从冷到暖）= 0.5，R（快速，从冷到暖）= 2。

根据目标，您可以将其解析为有限地平线或无限地平面MDP。