什么是强化机器学习?

时间:2017-01-14 06:57:58

标签: machine-learning

我知道有监督和无监督的学习,但仍然没有得到强化机器学习的工作方式。

有人可以用适当的例子帮助我吗?以及它如何运作的用例?

4 个答案:

答案 0 :(得分:2)

增强机器学习是指机器从经验中学习,反馈是好的"或者"坏"。

一个典型的例子是培训游戏代理商。您首先开始使用您拥有的数据(受监督)培训您的代理,当它耗尽时,开始培训多个代理并让彼此竞争。那些获胜的人正在得到加强"并继续下去。

这是"技巧之一"用于train AlphaGo,(以前在TD-Gammon

  

...   因此,政策网络   通过使用他们的结果让他们互相对抗来改善   这些游戏作为训练信号。这称为强化   学习,甚至深度强化学习(因为网络   受过训练很深。)

答案 1 :(得分:1)

您提到过有人监督和无监督学习。 这3个略有不同。

  • 监督学习:每个元组都有标签。

  • 无监督学习:您没有元组标签,但想要找到输入之间的关系

  • 强化倾向:稀疏条目的标签很少。那个标签是奖励。
强化学习是一个人如何了解新情况的过程。它需要随意的行动,观察环境的行为并相应地学习。

什么是奖励。?

奖励是来自环境的积极或消极反馈。行动负责其未来的所有奖励。因此,它需要采取那些可以在未来取得最大回报的行动。

这可以通过Q学习算法实现。我请你检查一下这个话题。

我使用强化算法训练pacman。我希望你知道这场比赛。我们的目标是采取行动,不应该击中鬼魂,也应该能够从地图中获取所有点数。它经过多次迭代和成千上万的游戏后自我训练。我也用同样的方法来训练一辆车在特定的赛道上开车!

强化学习可用于训练AI学习任何游戏。虽然更复杂的游戏需要神经网络,这就是所谓的深度学习。

答案 2 :(得分:1)

强化学习通常用于机器人技术,游戏和导航。

通过强化学习,该算法通过反复试验发现哪些动作产生了最大的回报。

这种类型的学习具有三个主要组成部分:主体(学习者或决策者),环境(主体与之交互的一切)和动作(主体可以做的事情)。

目标是使代理选择在给定的时间内最大化预期回报的操作。

遵循良好的政策,代理将更快地达到目标。因此,强化学习的目标是学习最佳策略。

答案 3 :(得分:0)

强化学习是一种模型,可以因做得好(或坏)而得到奖励。在监督学习的情况下,由策展人标记模型可以从中学习的所有数据。这就是强化学习的妙处,该模型从其环境中获得直接反馈并自动调整其行为。这是人们从我们的许多简单生活课程中学习的方式(例如,避免对您造成伤害的事情,更多让您感觉良好的事物)

这些天,很多强化学习都集中在深度学习上,最大的例子是关于视频游戏。强化学习也是一种强大的个性化工具。您可以将亚马逊推荐器视为一种强化学习算法,当它通过点击或购买来推荐合适的产品时会获得奖励,或者当用户开始观看电影时会奖励netflix推荐器。