马尔可夫决策过程-决策时期之间是否允许多个样本?

时间:2019-01-12 03:02:00

标签: markov-decision-process

我只对马尔可夫决策过程(MDP)有一个简单的问题,对于该问题,我无法从文献中获得以下任何直接回答:

我知道,与半MDP相比,MDP中的决策周期(决策时期之间的时间)是恒定的。但是,如果这个固定/固定时间的决策周期可以包含多个样本(不一定是固定数量的样本),我对此感到困惑,那么基于该样本可以估算当前状态并在决策时期做出决策?

我的问题是,我无法使用标准MDP定义(具有一个样本决策周期)或SMDP定义(保持周期/决策周期是可变的,并且仅当状态更改。另外,MDP的其他复杂扩展,例如POMDP,CMDP,似乎也不适合这种简单的,略有不同的MDP方法。

对此主题的任何建议/见解将不胜感激。 预先感谢!

0 个答案:

没有答案