应用错误收集

实用性是什么？

时间：2017-11-29 18:19:25

标签： reinforcement-learning

作为Q学习的一部分，目标是最大化预期效用。我知道

阅读维基百科： https://en.wikipedia.org/wiki/Q-learning描述了以下情境中的预期效用：

它通过学习最终给出的动作值函数来工作   在给定状态下采取特定行动的预期效用   遵循此后的最优政策。

Q-learning的优势之一是能够比较   在不需要模型的情况下可用行为的预期效用   环境。

但是没有定义实用程序是什么，实用程序是什么意思？

最大化utility什么时候最大化？

2 个答案:

答案 0 :(得分：0)

在这种情况下，“效用”表示功能或实用性。所以“最大功能”或“最大有效性”。

将单词插入Google即可：

有用，有利可图或有益的状态。

答案 1 :(得分：0)

一般而言，实用程序意味着有利可图或有益（在他的回复中张贴了@Rob）。

在Q-learning上下文中，实用程序与动作 - 值函数关闭相关（它们可以被视为同义词），正如您在维基百科解释中所读到的那样。这里，策略def form_valid(self, form): return super(YourFormView, self).get(form)的动作 - 值函数是对代理在给定状态π中执行动作a时将获得的回报（长期奖励）的估计。并遵循政策s。因此，当您最大化实用程序时，实际上您正在最大化您的代理将获得的奖励。由于奖励被定义为实现目标，因此您最大限度地实现了目标的“数量”。