为什么值迭代算法的终止条件 (例如http://aima-java.googlecode.com/svn/trunk/aima-core/src/main/java/aima/core/probability/mdp/search/ValueIteration.java)
在MDP(Markov Desicion Process)中
|| UI + 1-UI ||<错误*(1-gamma)/ gamma,其中
Ui是公用事业的向量
Ui + 1更新了实用程序的向量
算法中使用的错误 - 错误绑定
算法中使用的伽玛折扣因子
“错误*(1-gamma)/ gamma”来自哪里? “除以伽玛”是因为每一步都被γ折扣? 但错误*(1-gamma)? 一个错误有多大?
答案 0 :(得分:0)