POMDP中的值行是什么意思?

时间:2017-05-27 13:43:52

标签: markov-models mdp

我正在研究POMDP文件格式并暂停https://jsfiddle.net/bf7Lanm7/和许多其他链接。我已经了解了所有内容,但我无法获得文件第二行中的值所代表的含义。它的价值是奖励或成本。无法在其他地方找到答案。感到困惑,因为它应该可以在一个文件中获得成本和奖励,不是吗?为什么我必须指定其中一个?此外,文件的其余部分也没有使用该值。

1 个答案:

答案 0 :(得分:1)

在POMDP中,您可以使用奖励费用来定义学习目标。唯一的区别是,在第一种情况下,您尝试最大化value function,而对于成本,您尝试最小化value function

POMDP file中,您可以定义使用哪一个:

values: [ reward, cost ]

当解算器读取POMDP file时,它会将R:定义的值解释为奖励或费用。