在网格世界的政策迭代背后的直觉

时间:2012-10-29 00:20:31

标签: artificial-intelligence reinforcement-learning markov

我应该想出一个MDP代理,它使用策略迭代和值迭代进行赋值,并将其性能与状态的效用值进行比较。

如果MDP代理知道转移概率和奖励,它如何知道要移动哪个动作?

根据我的理解,MDP代理将执行策略迭代,并且在给定策略的情况下,计算在达到终止状态时获得的奖励。该策略是从值迭代算法开发的。

有人能为政策迭代的工作方式提供一些直觉吗?

1 个答案:

答案 0 :(得分:0)

假设您已经了解了策略迭代和值迭代算法的内容,代理只需通过为每个状态选择具有最高值的操作来构建新策略。

动作的值是在该动作的所有可能的下一个状态下达到下一个状态*(下一个状态的值+转换的奖励)的概率的总和。