标签: machine-learning reinforcement-learning q-learning
像Q学习一样,我们有奖励反馈,这是否意味着代理需要提前知道?
答案 0 :(得分:0)
代理无需了解奖励功能。但是,每走一步,它都应该得到回报。请注意,直到剧集结束,我们可以获得零奖励。 术语“奖励反馈”表示每次转换都给出一些标量值。