我可以在Q学习中设计不确定的奖励函数吗?

时间:2019-08-25 09:22:59

标签: reinforcement-learning q-learning

在Q学习算法中,有一个奖励函数可以奖励对当前状态采取的行动。我的问题是,我能否拥有一个不确定的奖励功能,该功能会因对状态执行操作的时间而受到影响。

例如,假设在某个下午1点对某个状态采取的行动的奖励为r(s,a)。经过几次迭代(假设现在是下午3点),系统将达到与下午1点时相同的状态并执行相同的操作。下午3点给予的奖励应该与下午1点给予的奖励相同吗?或者可以考虑时间来设计奖励功能(即,在相同状态和相同动作但在不同时间给出的奖励可以不同)。

以上是我想问的问题,我想说的另一件事是,我不想将时间视为国家的特征。这是因为在这种情况下,没有一个状态可以是相同的(时间总是在增加)。

1 个答案:

答案 0 :(得分:1)

我的第一句话是您的最后一句话,即将时间作为国家的一部分。正如您所说,时间总是在增加,但它也是周期性的。因此,也许您的奖励功能可能取决于时间的某些重复特征。例如,每天某个时间是下午3点。

另一方面,奖赏函数可以是随机的,对确定性函数没有限制。但是,请注意,该政策将倾向于优化预期回报。因此,如果您的代理每次访问相同的 [状态,动作] 对时都获得完全不同的报酬,则可能是您在对环境进行建模的方式上存在问题。