artificial-intelligence - 部分可观测马尔可夫决策过程最优值函数 - Thinbug

部分可观测马尔可夫决策过程最优值函数

时间：2014-10-25 03:39:08

标签： artificial-intelligence probability hidden-markov-models reinforcement-learning markov

我理解如何在POMDP中更新信念状态。但是在政策和价值功能部分，http://en.wikipedia.org/wiki/Partially_observable_Markov_decision_process我无法弄清楚如何计算V *（T（b，a，o））的值来找到最优值函数V *（b）。我在互联网上阅读了很多资源但没有解释如何清楚地计算出来。有人可以通过所有计算为我提供数学上解决的例子，或者为我提供数学上清晰的解释。

2 个答案:

答案 0 :(得分：0)

您应该在POMDP上查看本教程：

http://cs.brown.edu/research/ai/pomdp/tutorial/index.html

它包含一个关于 Value Iteration 的部分，可用于查找最佳策略/值函数。

答案 1 :(得分：0)

我尝试在此答案中使用与Wikipedia相同的表示法。首先，我重复Wikipedia所述的价值函数：

V ^*（b）是值函数，信念 b 作为参数。 b 包含所有状态 s 的概率，总计为1：

r（b，a）是信仰 b 和行动 a 的奖励，必须使用对每个州的信念来计算给出原始奖励函数 R（s，a）：处于状态 s 并完成 a 行动的奖励。

我们也可以用状态而不是信念来写 O 函数 b ：

这是观察 o 给出信念 b 和行动 a 的概率。请注意， O 和 T 是概率函数。

最后，函数τ（b，a，o）给出先前的信念给出新的信念状态 b'=τ（b，a，o） > b ，操作 a 和观察 o 。按状态我们可以计算新的概率：

现在新的信念 b'可用于迭代计算： V（τ（b，a，o））。

可以使用例如适用Value Iteration的dynamic programming来逼近最佳值函数。然后迭代地更新函数，直到差小于小值ε。

有关POMDP的更多信息，例如：

Sebastian Thrun，Wolfram Burgard和Dieter Fox。 2005.概率机器人（智能机器人和自主代理）。麻省理工学院出版社。
A brief introduction to reinforcement learning
A POMDP Tutorial
Reinforcement Learning and Markov Decision Processes