这两种RL技术的奖励如何运作?我的意思是,他们都改进了政策和评估,但不是奖励。 我如何从一开始就猜测它们?
答案 0 :(得分:0)
你不需要猜测奖励。奖励是环境的反馈,奖励是环境的参数。算法在代理只能观察反馈,状态空间和动作空间的情况下工作。
Q学习和TD的关键思想是异步随机近似,其中我们使用长期奖励期望的噪声评估来估计Bellman算子的不动点。
例如,如果我们想要估计期望高斯分布,那么我们可以对其进行采样和平均。
答案 1 :(得分:0)
强化学习是针对AI代理没有关于其所在世界的信息的问题。因此,强化学习不仅可以为您提供每个州的政策/最佳行动,还可以在完全异国的环境中导航(没有知道什么行动将导致哪个结果状态)并学习这个新环境的参数。这些是基于模型的强化学习算法
现在Q学习和时间差异学习是无模型强化学习算法。意思是,AI代理与基于模型的Algo做同样的事情,但它不必学习它所运行的世界的模型(转移概率之类的东西)。通过多次迭代,它提出了每个状态的映射在该状态下执行的最佳操作。
现在回答你的问题,你不必猜测不同州的奖励。最初,当代理对环境不熟悉时,它只选择从其所处状态执行的随机操作并将其提供给模拟器。模拟器基于转换函数返回该状态动作对的结果状态,并返回处于该状态的奖励。
模拟器类似于现实世界中的自然。例如,你发现世界上不熟悉的东西,你会做一些动作,比如触摸它,如果事情结果是一个热门的对象大自然以痛苦的形式给予奖励,这样下次你知道当你发生什么时尝试这个动作。在编程时,重要的是要注意模拟器的工作对于试图学习环境的AI代理是不可见的。
现在,根据代理人所感知的奖励,它会支持它的Q值(在Q-Learning的情况下)或效用值(在TD-Learning的情况下)。在多次迭代中,这些Q值收敛,您可以根据状态 - 动作对的Q值为每个状态选择最佳动作。