machine-learning - 机器如何知道哪一步可以获得最高奖励？ - Thinbug

机器如何知道哪一步可以获得最高奖励？

时间：2019-05-07 05:23:15

标签： machine-learning reinforcement-learning

据我所知，强化学习将从行动中获得回报。

但是，在玩视频游戏时，大多数步骤（例如：街头霸王）没有任何奖励（奖励== 0），最终我们获得了奖励（例如：玩家获胜，奖励= 1），有这么多动作，机器怎么知道赢得这场比赛的关键是什么？

1 个答案:

答案 0 :(得分：2)

在强化学习中，奖励可以立即或延迟 [1]：

即时奖励可以是：
- 如果特工赢了比赛，则肯定很高（这是击败对手的最后一个动作）；
- 如果代理输掉比赛，负数非常低；
- 如果此举会损害您的对手，则为阳性；
- 如果代理失去健康点，则为阴性。
延迟奖励是由当前行动可能带来的未来奖励引起的。例如，向左移动一个步骤可能会导致在下一步中避免被击中并可能击中对手。

诸如Q-learning之类的强化学习算法选择可获得最高预期奖励的动作。此奖励会不断更新，包括当前奖励（ r 在时间 t ）和可能的未来奖励（等式中的最后一个值 max Q ，基于时间 t + 1 及以后的操作）：

A Beginner's Guide to Deep Reinforcement Learning中提供了有关（深度）强化学习的更多详细信息，以及一些游戏应用示例。

相关问题

我如何学习奖励功能？

我怎么知道解决的步骤？

通过api知道哪个构建步骤失败了

如何让Unity显示奖励视频价格或奖励金额

如何知道weka预测哪个标签

神经网络如何知道它从行动中得到的奖励？

不变奖励如何帮助培训？

如何知道连接了哪个CAN节点

使用Tensorflow最大化奖励功能

机器如何知道哪一步可以获得最高奖励？

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？