何时使用Policy Iteration而不是Value Iteration

时间:2014-11-13 22:12:59

标签: mdp

我目前正在研究马尔可夫决策过程的动态编程解决方案。我觉得我对VI和PI有了很好的掌握,PI的动机对我来说非常清楚(当我们需要的是正确的政策时,收敛于正确的状态实用工具似乎是不必要的工作)。但是,我的实验都没有表明PI在运行时方面有利。无论州的空间大小和折扣因素如何,似乎都需要更长的时间。

这可能是由于实施(我使用BURLAP库),或者是我的不良实验。然而,即使趋势似乎也没有显示出好处。应该注意的是,PI的BURLAP实现实际上是'#34;修改的策略迭代"在每次迭代中运行有限的VI变体。我的问题是,你知道任何理论或实践的情况,其中(修改的)PI应该优于VI吗?

1 个答案:

答案 0 :(得分:1)

事实证明,当折扣因子(gamma)非常高时,Policy Iteration,特别是Modified Policy Iteration,可以胜过Value Iteration。

http://www.cs.cmu.edu/afs/cs/project/jair/pub/volume4/kaelbling96a.pdf