在Q-learning中,如果我的Q函数是由正常的前馈神经网络近似,我该如何表示我的奖励功能呢?
我应该将其表示为离散值"靠近","非常靠近"所有我关心的是,只要我已经转移到Q函数Q(s, a, θ)
的神经网络近似并且不再使用查找表,我还会还有义务建立一个奖励表吗?
答案 0 :(得分:1)
没有“奖励表”这样的东西你应该定义“奖励信号”,它是在给定的时间戳中以给定的代理世界状态产生的。此奖励应为标量(数字)。一般来说,你可以考虑更复杂的奖励,但在Q学习奖励的典型设置中只是一个数字,因为算法的目标是找到一个政策,使其最大化预期的总和折扣奖励。显然,您需要一个可以添加,相乘和最终比较的对象,并且这些对象只有数字(或者可以直接转换为数字)。好的,根据你的具体情况说,如果你知道到目标的距离,你可以给出一个与距离成反比的奖励,它可以是-distance
,或1/distance
(因为这个将保证更好的缩放)。