部分可观测马尔可夫决策过程最优值函数

时间:2014-10-25 03:39:08

标签: artificial-intelligence probability hidden-markov-models reinforcement-learning markov

我理解如何在POMDP中更新信念状态。但是在政策和价值功能部分,http://en.wikipedia.org/wiki/Partially_observable_Markov_decision_process我无法弄清楚如何计算V *(T(b,a,o))的值来找到最优值函数V *(b)。我在互联网上阅读了很多资源但没有解释如何清楚地计算出来。有人可以通过所有计算为我提供数学上解决的例子,或者为我提供数学上清晰的解释。

2 个答案:

答案 0 :(得分:0)

您应该在POMDP上查看本教程:

http://cs.brown.edu/research/ai/pomdp/tutorial/index.html

它包含一个关于 Value Iteration 的部分,可用于查找最佳策略/值函数。

答案 1 :(得分:0)

我尝试在此答案中使用与Wikipedia相同的表示法。 首先,我重复Wikipedia所述的价值函数:

value function

V * (b)是值函数,信念 b 作为参数。 b 包含所有状态 s 的概率,总计为1:

sum_b

r(b,a)是信仰 b 和行动 a 的奖励,必须使用对每个州的信念来计算给出原始奖励函数 R(s,a):处于状态 s 并完成 a 行动的奖励。

reward def

我们也可以用状态而不是信念来写 O 函数 b

o prob

这是观察 o 给出信念 b 和行动 a 的概率。请注意, O T 是概率函数。

最后,函数τ(b,a,o)给出先前的信念给出新的信念状态 b'=τ(b,a,o) > b ,操作 a 和观察 o 。按状态我们可以计算新的概率:

belief update

现在新的信念 b'可用于迭代计算: V(τ(b,a,o))

可以使用例如适用Value Iterationdynamic programming来逼近最佳值函数。然后迭代地更新函数,直到差小于小值ε。

有关POMDP的更多信息,例如: