马可夫决策过程中的效用值计算

时间:2018-12-14 12:26:17

标签: reinforcement-learning markov-decision-process

我正在阅读Stuart Russel和Peter Norvig撰写的《人工智能》一书中的效用函数。在第17章中,后继决策问题。

enter image description here

在本示例中,除了目标状态分别为1和-1之外,我不理解作者如何计算图17.3所示的值,其中伽玛伽玛值为1,当前状态R(s)值为-0.04。

例如U(3,3),如何计算0.918的值?

0 个答案:

没有答案