应用错误收集

价值迭代如何确定最佳策略？

时间：2018-10-09 01:55:01

标签： artificial-intelligence markov markov-decision-process value-iteration

我了解如何实现价值迭代。但是，我在努力理解价值迭代如何确定最佳策略。

在我的实践问题中，我看到一些迭代之后，这些值很快收敛，并且一个状态的值升至高于其他状态。价值迭代是否只是认为最优策略是使代理保持最高价值的策略？

0 个答案:

没有答案