标签: reinforcement-learning markov-decision-process
我正在阅读Stuart Russel和Peter Norvig撰写的《人工智能》一书中的效用函数。在第17章中,后继决策问题。
在本示例中,除了目标状态分别为1和-1之外,我不理解作者如何计算图17.3所示的值,其中伽玛伽玛值为1,当前状态R(s)值为-0.04。
例如U(3,3),如何计算0.918的值?