我理解如何在POMDP中更新信念状态。但是在政策和价值功能部分,http://en.wikipedia.org/wiki/Partially_observable_Markov_decision_process我无法弄清楚如何计算V *(T(b,a,o))的值来找到最优值函数V *(b)。我在互联网上阅读了很多资源但没有解释如何清楚地计算出来。有人可以通过所有计算为我提供数学上解决的例子,或者为我提供数学上清晰的解释。
答案 0 :(得分:0)
您应该在POMDP上查看本教程:
http://cs.brown.edu/research/ai/pomdp/tutorial/index.html
它包含一个关于 Value Iteration 的部分,可用于查找最佳策略/值函数。
答案 1 :(得分:0)
我尝试在此答案中使用与Wikipedia相同的表示法。 首先,我重复Wikipedia所述的价值函数:
V * (b)是值函数,信念 b 作为参数。 b 包含所有状态 s 的概率,总计为1:
r(b,a)是信仰 b 和行动 a 的奖励,必须使用对每个州的信念来计算给出原始奖励函数 R(s,a):处于状态 s 并完成 a 行动的奖励。
我们也可以用状态而不是信念来写 O 函数 b :
这是观察 o 给出信念 b 和行动 a 的概率。请注意, O 和 T 是概率函数。
最后,函数τ(b,a,o)给出先前的信念给出新的信念状态 b'=τ(b,a,o) > b ,操作 a 和观察 o 。按状态我们可以计算新的概率:
现在新的信念 b'可用于迭代计算: V(τ(b,a,o))。
可以使用例如适用Value Iteration的dynamic programming来逼近最佳值函数。然后迭代地更新函数,直到差小于小值ε。
有关POMDP的更多信息,例如: