应用错误收集

我目前正在研究马尔可夫决策过程的动态编程解决方案。我觉得我对VI和PI有了很好的掌握，PI的动机对我来说非常清楚（当我们需要的是正确的政策时，收敛于正确的状态实用工具似乎是不必要的工作）。但是，我的实验都没有表明PI在运行时方面有利。无论州的空间大小和折扣因素如何，似乎都需要更长的时间。

这可能是由于实施（我使用BURLAP库），或者是我的不良实验。然而，即使趋势似乎也没有显示出好处。应该注意的是，PI的BURLAP实现实际上是'＃34;修改的策略迭代＆＃34;在每次迭代中运行有限的VI变体。我的问题是，你知道任何理论或实践的情况，其中（修改的）PI应该优于VI吗？