我对机器学习的概念还比较陌生,我一直在关注有关Q学习的一些讲座/教程,例如:Stanford's Lecture on Reinforcement Learning
对于政策功能中gamma的确切用途,它们都给出了简短或模糊的答案。到目前为止,我发现的最容易理解的解释是“我们对未来奖励的重视程度”。
真的那么简单吗?伽玛是什么定义了我们如何延迟奖励/展望未来?在下面的示例中,例如知道采用选项B:
在A和B这两种选择的情况下,A的即时收益为10,然后又是10,B的立即收益为0,然后是30。
所以,我的问题:
答案 0 :(得分:3)
gamma参数确实用于表达有关您如何评价未来奖励的信息。更详细地讲,您的折扣奖励(用于培训)如下:
这意味着指数函数决定了如何考虑未来的奖励。 例如,让我们比较两个伽玛值:
让我们看一下伽玛步长达到0.5时的情况。在gamma = 0.9的情况下,这是6个步骤。 gamma = 0.99时,更像是60步。这意味着,对于gamma = 0.9,分6步的奖励是即时奖励的一半,但对于gamma = 0.99,同样的奖励对60步有效。因此,对于γ= 0.99而言,下降的意义不大,并且与γ= 0.9相比,未来的收益更高。 要设置应用程序所需的伽玛参数,重要的是要对环境中需要多少步骤才能获得奖励有一定的了解。
返回到选项A和B。A应该具有较低的伽玛值,因为立即奖励非常重要。选项B应该具有更高的伽玛值,因为奖励会在将来出现。