据我所知,强化学习将从行动中获得回报。
但是,在玩视频游戏时,大多数步骤(例如:街头霸王)没有任何奖励(奖励== 0),最终我们获得了奖励(例如:玩家获胜,奖励= 1),有这么多动作,机器怎么知道赢得这场比赛的关键是什么?
答案 0 :(得分:2)
在强化学习中,奖励可以立即或延迟 [1]:
诸如Q-learning之类的强化学习算法选择可获得最高预期奖励的动作。此奖励会不断更新,包括当前奖励( r 在时间 t )和可能的未来奖励(等式中的最后一个值 max Q ,基于时间 t + 1 及以后的操作):
A Beginner's Guide to Deep Reinforcement Learning中提供了有关(深度)强化学习的更多详细信息,以及一些游戏应用示例。