应用错误收集

价值迭代的收敛性

时间：2013-11-11 01:16:02

标签： algorithm artificial-intelligence iteration markov-chains convergence

为什么值迭代算法的终止条件（例如http://aima-java.googlecode.com/svn/trunk/aima-core/src/main/java/aima/core/probability/mdp/search/ValueIteration.java）

在MDP（Markov Desicion Process）中

|| UI + 1-UI ||＆LT;错误*（1-gamma）/ gamma，其中

Ui是公用事业的向量
Ui + 1更新了实用程序的向量

算法中使用的错误 - 错误绑定

算法中使用的伽玛折扣因子

“错误*（1-gamma）/ gamma”来自哪里？ “除以伽玛”是因为每一步都被γ折扣？但错误*（1-gamma）？一个错误有多大？

1 个答案:

答案 0 :(得分：0)

这称为Bellman错误或Bellman Residual。

见Williams and Baird，1993用于MDP。

见Littman，1994用于POMDP。