代理商是否需要在强化学习中提前了解奖励功能?

时间:2019-12-08 07:20:00

标签: machine-learning reinforcement-learning q-learning

像Q学习一样,我们有奖励反馈,这是否意味着代理需要提前知道?

1 个答案:

答案 0 :(得分:0)

代理无需了解奖励功能。但是,每走一步,它都应该得到回报。请注意,直到剧集结束,我们可以获得零奖励。 术语“奖励反馈”表示每次转换都给出一些标量值。