强化学习中折扣因子γ的完整含义是什么?

时间:2019-01-23 19:25:07

标签: machine-learning reinforcement-learning q-learning

我对机器学习的概念还比较陌生,我一直在关注有关Q学习的一些讲座/教程,例如:Stanford's Lecture on Reinforcement Learning

对于政策功能中gamma的确切用途,它们都给出了简短或模糊的答案。到目前为止,我发现的最容易理解的解释是“我们对未来奖励的重视程度”。

真的那么简单吗?伽玛是什么定义了我们如何延迟奖励/展望未来?在下面的示例中,例如知道采用选项B:

在A和B这两种选择的情况下,A的即时收益为10,然后又是10,B的立即收益为0,然后是30。

所以,我的问题:

  1. 什么是伽玛的深层解释?
  2. 我们如何设置它?
  3. 如果不是为了向前看,我们如何展望未来?

1 个答案:

答案 0 :(得分:3)

gamma参数确实用于表达有关您如何评价未来奖励的信息。更详细地讲,您的折扣奖励(用于培训)如下:

Discounted reward:

这意味着指数函数决定了如何考虑未来的奖励。 例如,让我们比较两个伽玛值:

gamma = 0.9

gamma = 0.99

让我们看一下伽玛步长达到0.5时的情况。在gamma = 0.9的情况下,这是6个步骤。 gamma = 0.99时,更像是60步。这意味着,对于gamma = 0.9,分6步的奖励是即时奖励的一半,但对于gamma = 0.99,同样的奖励对60步有效。因此,对于γ= 0.99而言,下降的意义不大,并且与γ= 0.9相比,未来的收益更高。 要设置应用程序所需的伽玛参数,重要的是要对环境中需要多少步骤才能获得奖励有一定的了解。

返回到选项A和B。A应该具有较低的伽玛值,因为立即奖励非常重要。选项B应该具有更高的伽玛值,因为奖励会在将来出现。