连续时间有限时域MDP

时间:2016-05-03 01:23:25

标签: dynamic-programming markov-chains reinforcement-learning markov-models control-theory

是否存在解决有限时间半马尔可夫决策过程的算法?

我希望找到具有有限动作空间,有限状态空间和截止期限的顺序决策问题的最优策略。重要的是,不同的行动需要不同的时间,对于其中一个行动,这个持续时间是随机的。我可以将时间建模为离散或连续,具体取决于可用的方法。

我知道有限折扣无限期半MDP的算法,但我找不到有限时间半MDP的任何工作。以前是否研究过这类问题?

1 个答案:

答案 0 :(得分:0)

与几乎所有MDP一样,后向动态编程也应该有效。您可以从0到截止日期以小步骤离散有限范围,然后从截止日期开始递归更新值。在状态空间中,您必须跟踪当前操作,该操作的总花费时间以及已完成的操作。可能的状态数量可能非常大。

在动态程序中,您可以利用它可以在操作完成时为状态选择值函数。