价值迭代的收敛性

时间:2013-11-11 01:16:02

标签: algorithm artificial-intelligence iteration markov-chains convergence

为什么值迭代算法的终止条件 (例如http://aima-java.googlecode.com/svn/trunk/aima-core/src/main/java/aima/core/probability/mdp/search/ValueIteration.java

在MDP(Markov Desicion Process)中

|| UI + 1-UI ||<错误*(1-gamma)/ gamma,其中

Ui是公用事业的向量
 Ui + 1更新了实用程序的向量

算法中使用的错误 - 错误绑定

算法中使用的伽玛折扣因子

“错误*(1-gamma)/ gamma”来自哪里? “除以伽玛”是因为每一步都被γ折扣? 但错误*(1-gamma)? 一个错误有多大?

1 个答案:

答案 0 :(得分:0)

这称为Bellman错误或Bellman Residual。

Williams and Baird,1993用于MDP。

Littman,1994用于POMDP。