价值迭代如何确定最佳策略?

时间:2018-10-09 01:55:01

标签: artificial-intelligence markov markov-decision-process value-iteration

我了解如何实现价值迭代。但是,我在努力理解价值迭代如何确定最佳策略。

在我的实践问题中,我看到一些迭代之后,这些值很快收敛,并且一个状态的值升至高于其他状态。价值迭代是否只是认为最优策略是使代理保持最高价值的策略?

0 个答案:

没有答案