reinforcement-learning - 马可夫决策过程中的效用值计算 - Thinbug

马可夫决策过程中的效用值计算

时间：2018-12-14 12:26:17

标签： reinforcement-learning markov-decision-process

我正在阅读Stuart Russel和Peter Norvig撰写的《人工智能》一书中的效用函数。在第17章中，后继决策问题。

在本示例中，除了目标状态分别为1和-1之外，我不理解作者如何计算图17.3所示的值，其中伽玛伽玛值为1，当前状态R（s）值为-0.04。

例如U（3,3），如何计算0.918的值？

0 个答案:

没有答案