作为Q学习的一部分,目标是最大化预期效用。我知道
阅读维基百科: https://en.wikipedia.org/wiki/Q-learning描述了以下情境中的预期效用:
它通过学习最终给出的动作值函数来工作 在给定状态下采取特定行动的预期效用 遵循此后的最优政策。
Q-learning的优势之一是能够比较 在不需要模型的情况下可用行为的预期效用 环境。
但是没有定义实用程序是什么,实用程序是什么意思?
最大化utility
什么时候最大化?
答案 0 :(得分:0)
在这种情况下,“效用”表示功能或实用性。所以“最大功能”或“最大有效性”。
将单词插入Google即可:
有用,有利可图或有益的状态。
答案 1 :(得分:0)
一般而言,实用程序意味着有利可图或有益(在他的回复中张贴了@Rob)。
在Q-learning上下文中,实用程序与动作 - 值函数关闭相关(它们可以被视为同义词),正如您在维基百科解释中所读到的那样。这里,策略def form_valid(self, form):
return super(YourFormView, self).get(form)
的动作 - 值函数是对代理在给定状态π
中执行动作a
时将获得的回报(长期奖励)的估计。并遵循政策s
。因此,当您最大化实用程序时,实际上您正在最大化您的代理将获得的奖励。由于奖励被定义为实现目标,因此您最大限度地实现了目标的“数量”。