应用错误收集

使用神经网络近似Q函数的奖励功能

时间：2016-10-19 17:20:24

标签： machine-learning tensorflow deep-learning reinforcement-learning q-learning

在Q-learning中，如果我的Q函数是由正常的前馈神经网络近似，我该如何表示我的奖励功能呢？

我应该将其表示为离散值＆＃34;靠近＆＃34;，＆＃34;非常靠近＆＃34;所有我关心的是，只要我已经转移到Q函数Q(s, a, θ)的神经网络近似并且不再使用查找表，我还会还有义务建立一个奖励表吗？

1 个答案:

答案 0 :(得分：1)

没有“奖励表”这样的东西你应该定义“奖励信号”，它是在给定的时间戳中以给定的代理世界状态产生的。此奖励应为标量（数字）。一般来说，你可以考虑更复杂的奖励，但在Q学习奖励的典型设置中只是一个数字，因为算法的目标是找到一个政策，使其最大化预期的总和折扣奖励。显然，您需要一个可以添加，相乘和最终比较的对象，并且这些对象只有数字（或者可以直接转换为数字）。好的，根据你的具体情况说，如果你知道到目标的距离，你可以给出一个与距离成反比的奖励，它可以是-distance，或1/distance（因为这个将保证更好的缩放）。