实用性是什么?

时间:2017-11-29 18:19:25

标签: reinforcement-learning

作为Q学习的一部分,目标是最大化预期效用。我知道

阅读维基百科: https://en.wikipedia.org/wiki/Q-learning描述了以下情境中的预期效用:

  

它通过学习最终给出的动作值函数来工作   在给定状态下采取特定行动的预期效用   遵循此后的最优政策。

     

Q-learning的优势之一是能够比较   在不需要模型的情况下可用行为的预期效用   环境。

但是没有定义实用程序是什么,实用程序是什么意思?

最大化utility什么时候最大化?

2 个答案:

答案 0 :(得分:0)

在这种情况下,“效用”表示功能或实用性。所以“最大功能”或“最大有效性”。

将单词插入Google即可:

  

有用,有利可图或有益的状态。

答案 1 :(得分:0)

一般而言,实用程序意味着有利可图或有益(在他的回复中张贴了@Rob)。

在Q-learning上下文中,实用程序动作 - 值函数关闭相关(它们可以被视为同义词),正如您在维基百科解释中所读到的那样。这里,策略def form_valid(self, form): return super(YourFormView, self).get(form) 的动作 - 值函数是对代理在给定状态π中执行动作a时将获得的回报(长期奖励)的估计。并遵循政策s。因此,当您最大化实用程序时,实际上您正在最大化您的代理将获得的奖励。由于奖励被定义为实现目标,因此您最大限度地实现了目标的“数量”。