标签: artificial-intelligence markov markov-decision-process value-iteration
我了解如何实现价值迭代。但是,我在努力理解价值迭代如何确定最佳策略。
在我的实践问题中,我看到一些迭代之后,这些值很快收敛,并且一个状态的值升至高于其他状态。价值迭代是否只是认为最优策略是使代理保持最高价值的策略?