机器如何知道哪一步可以获得最高奖励?

时间:2019-05-07 05:23:15

标签: machine-learning reinforcement-learning

据我所知,强化学习将从行动中获得回报。

但是,在玩视频游戏时,大多数步骤(例如:街头霸王)没有任何奖励(奖励== 0),最终我们获得了奖励(例如:玩家获胜,奖励= 1),有这么多动作,机器怎么知道赢得这场比赛的关键是什么?

1 个答案:

答案 0 :(得分:2)

强化学习中,奖励可以立即延迟 [1]:

  • 即时奖励可以是:
    • 如果特工赢了比赛,则肯定很高(这是击败对手的最后一个动作);
    • 如果代理输掉比赛,负数非常低;
    • 如果此举会损害您的对手,则为阳性;
    • 如果代理失去健康点,则为阴性。
  • 延迟奖励是由当前行动可能带来的未来奖励引起的。例如,向左移动一个步骤可能会导致在下一步中避免被击中并可能击中对手。

诸如Q-learning之类的强化学习算法选择可获得最高预期奖励的动作。此奖励会不断更新,包括当前奖励( r 在时间 t )和可能的未来奖励(等式中的最后一个值 max Q ,基于时间 t + 1 及以后的操作): qlearning

A Beginner's Guide to Deep Reinforcement Learning中提供了有关(深度)强化学习的更多详细信息,以及一些游戏应用示例。