我正在研究POMDP文件格式并暂停https://jsfiddle.net/bf7Lanm7/和许多其他链接。我已经了解了所有内容,但我无法获得文件第二行中的值所代表的含义。它的价值是奖励或成本。无法在其他地方找到答案。感到困惑,因为它应该可以在一个文件中获得成本和奖励,不是吗?为什么我必须指定其中一个?此外,文件的其余部分也没有使用该值。
答案 0 :(得分:1)
在POMDP中,您可以使用奖励或费用来定义学习目标。唯一的区别是,在第一种情况下,您尝试最大化value function,而对于成本,您尝试最小化value function。
在POMDP file中,您可以定义使用哪一个:
values: [ reward, cost ]
当解算器读取POMDP file时,它会将R:
定义的值解释为奖励或费用。