应用错误收集

我对机器学习的概念还比较陌生，我一直在关注有关Q学习的一些讲座/教程，例如：Stanford's Lecture on Reinforcement Learning

对于政策功能中gamma的确切用途，它们都给出了简短或模糊的答案。到目前为止，我发现的最容易理解的解释是“我们对未来奖励的重视程度”。

真的那么简单吗？伽玛是什么定义了我们如何延迟奖励/展望未来？在下面的示例中，例如知道采用选项B：

在A和B这两种选择的情况下，A的即时收益为10，然后又是10，B的立即收益为0，然后是30。

所以，我的问题：

什么是伽玛的深层解释？
我们如何设置它？
如果不是为了向前看，我们如何展望未来？

gamma参数确实用于表达有关您如何评价未来奖励的信息。更详细地讲，您的折扣奖励（用于培训）如下：

Discounted reward:

这意味着指数函数决定了如何考虑未来的奖励。例如，让我们比较两个伽玛值：

gamma = 0.9

gamma = 0.99

让我们看一下伽玛步长达到0.5时的情况。在gamma = 0.9的情况下，这是6个步骤。 gamma = 0.99时，更像是60步。这意味着，对于gamma = 0.9，分6步的奖励是即时奖励的一半，但对于gamma = 0.99，同样的奖励对60步有效。因此，对于γ= 0.99而言，下降的意义不大，并且与γ= 0.9相比，未来的收益更高。要设置应用程序所需的伽玛参数，重要的是要对环境中需要多少步骤才能获得奖励有一定的了解。

返回到选项A和B。A应该具有较低的伽玛值，因为立即奖励非常重要。选项B应该具有更高的伽玛值，因为奖励会在将来出现。

强化学习中折扣因子γ的完整含义是什么？

1 个答案: