强化学习,深度学习和深度强化学习之间的区别是什么?

时间:2018-05-26 12:34:31

标签: machine-learning neural-network deep-learning reinforcement-learning q-learning

强化学习,深度学习和深度强化学习之间的区别是什么? Q-learning适合在哪里?

7 个答案:

答案 0 :(得分:7)

强化学习是指教授代理人使用奖励来导航环境。 Q学习是主要的强化学习方法之一。

深度学习使用神经网络来实现某个目标,例如识别图像中的字母和单词。

深度强化学习是两者的结合,以Q学习为基础。但是,这不是使用实际的状态 - 值对,而是经常用于状态 - 动作空间太大以至于Q学习需要很长时间才能收敛的环境中。通过使用神经网络,我们可以找到相似的其他状态 - 动作对。这种“函数逼近”允许在具有非常大的状态动作空间的环境中进行有效学习。

答案 1 :(得分:2)

深度学习是一种使用神经网络使函数逼近器解决各种问题的方法。 例如:学习一个函数,将图像作为输入并输出图像中对象的边界框。

强化学习是一个我们拥有代理人的领域,我们希望该代理人执行任务,即基于目标的问题,在此我们使用试错法学习方法。 例如:特工学会从网格世界上的一个位置移到一个目标位置,而不会陷入两者之间的泥潭。

深度强化学习是一种使用神经网络解决基于目标的问题的方法。这是因为,当我们希望代理在现实世界或当前游戏中执行任务时,状态空间很大。 座席甚至一次访问每个状态都需要很长时间,而且我们不能使用查找表来存储值函数。 因此,为了解决这个问题,我们使用神经网络来近似状态以概括学习过程 例如:我们使用DQN解决了许多atari游戏。

Q学习:这是一种时间差异学习方法,其中我们有一个Q表,用于基于Q值函数寻找当前状态下可能的最佳动作。 为了学习Q值,我们使用奖励和最大可能的下一状态Q值。

Q学习基本上属于强化学习,其深度强化学习类似物是Deep Q网络。

答案 2 :(得分:1)

机器学习方法的目标是从数据中学习规则,并根据这些规则做出预测和/或决策。

学习过程可以在(n)监督半监督无监督强化中完成>学习时尚。

强化学习(RL)中,代理通过反复试验(成功使用奖励积分,对错误采取惩罚措施)与环境互动并学习最佳策略。它用于顺序决策问题[1]。

深度学习作为机器学习的一个子领域,是一种数学框架,用于学习数据中的潜在规则或现有数据的新表示形式。术语“深度”是指框架中学习层的数量。深度学习可以与任何上述学习策略一起使用,即监督学习,半监督,无监督和强化学习。

当强化学习的任何组成部分利用深度学习时,就会获得深度强化学习技术。请注意, Q学习是RL的组成部分,用于告知代理在什么情况下需要采取什么行动。详细信息可以在[1]中找到。

[1]李玉玺。 “深度强化学习:概述。” arXiv预印本arXiv:1701.07274(2017)。

答案 3 :(得分:0)

强化学习是指面向完成的算法,该算法学习如何在多个步骤上实现协调复合目标(目标)或沿特定维度最大化。强化学习背后的基本主题是,代理角色将通过与环境互动并从执行行为中获得回报来从环境中学习。

深度学习使用多层非线性处理单元提取特征并进行变换

深度强化学习方法引入了深度神经网络来解决强化学习问题,因此它们被称为“深度学习”。

答案 4 :(得分:0)

强化学习和监督学习之间还有更多区别,两者都可以使用深度神经网络(也称为深度学习)。在监督学习中-训练集由人(例如AlphaGo)标记。在强化学习(例如AlphaZero)中,该算法是自学的。

答案 5 :(得分:0)

简单地说,

深度学习-它使用神经网络(模仿大脑,神经元)模型,深度学习也用于图像分类,数据分析和强化学习。

强化学习-这是机器学习的一个分支,围绕一个代理(例如:清理机器人)在其环境中(例如:四处寻找垃圾)采取行动(例如:四处寻找垃圾)。并获得奖励(例如:收集垃圾)

深度强化学习-强化学习具有的算法之一,该算法利用了深度学习的概念。

答案 6 :(得分:0)

强化学习 (RL) 是一种主要受系统反馈控制驱动的机器学习。 RL 通常被认为是一种最优控制,它通过与系统/环境交互并获得反馈来学习。 RL 通常用单时间步/多时间步学习规则代替计算成本高的动态规划方法。 RL 中流行的时间差异方法被认为介于动态规划和蒙特卡罗方法之间。经典的强化学习方法使用的表格算法没有那么可扩展。

深度学习 (DL) 被认为是现代机器学习的重要组成部分(经典机器学习通常意味着 SVM、线性回归等)。 DL 使用具有反向传播的深层多层神经网络 (NN) 进行学习。通过使用设计良好的深度 NN 网络,可以学习复杂的输入输出关系。由于这种逼近非常复杂函数的特性,DL 近年来(2010 年)非常流行,尤其是在自然语言任务和计算机视觉任务中。 DL 的一个吸引人的方面是这些模型可以是端到端的,这意味着我们不需要手动进行特征工程。深度学习算法有很多种,比如深度神经网络、卷积神经网络、GRU、LSTM、GAN、注意力机制、transfromer 等。

Deep RL 使用深度神经网络架构来代替表格方法来解决非常高维的问题。非正式地说,控制器不再是查表,而是我们使用深度神经网络作为控制器。由于在强化学习中利用了深度神经网络,这通常被称为深度强化学习。