如果在强化学习(RL)算法在现实世界中工作之前在模拟环境中需要大量迭代,为什么我们不使用相同的模拟环境来生成标记数据,然后使用监督学习方法代替RL?
答案 0 :(得分:0)
原因是因为这两个字段具有根本差异:
一种尝试复制以前的结果,另一种尝试比以前的结果更好。
机器学习有4个领域:
让我们讨论一下您需要的两个领域,让我们以现实生活中的射箭为例,直观地探索它们。
监督学习
对于有监督的学习,我们可能会观察一个射手大师的活动,大概持续一周,并记录他们向后拉弓弦的距离,射击角度等。然后我们回家建立模型。在 最理想的情况 中,我们的模型与主弓箭手一样好。由于监督学习中的损失函数通常是MSE或交叉熵,因此它不能变得更好,因此我们只是尝试复制特征标签映射。构建模型后,我们将其部署。而且,我们只是想像一下我们特别喜欢在线学习。因此,我们不断从主弓箭手那里获取数据,并继续学习与主弓箭手完全相同。
最大的收获:
我们试图复制主弓箭手仅仅是因为我们认为他是最好的。因此,我们永远无法击败他。
强化学习
在强化学习中,我们只是建立一个模型,然后让它尝试许多不同的事情。我们根据箭头距靶心的距离给予奖励/惩罚。 我们没有在尝试复制任何行为,而是尝试找到自己的最佳行为。因此,我们对自己认为的最佳射击策略没有偏见。
由于RL没有任何先验知识,所以RL可能很难收敛于难题。因此,有一种称为学徒学习/模仿学习的方法,在此方法中,我们基本上为RL提供了一些弓箭手的弹道,以便它可以有一个起点并开始收敛。但是在那之后,RL有时会采取随机动作尝试寻找其他最佳解决方案,从而探索。 这是监督学习无法做到的。因为如果您使用有监督的学习进行探索,那基本上是说在这种状态下采取这种行动是最佳的。然后,您尝试使模型进行复制。但是,这种情况在监督学习中是错误的,而应被视为数据中的异常值。
监督学习与RL的主要区别:
为什么我们不使用相同的模拟环境来生成标记数据,然后使用监督学习方法代替RL
我们为Deep RL执行此操作,因为它具有体验重播缓冲区。但是,由于缺少奖励的概念,因此在监督学习中是不可能的。
示例:在迷宫中行走。
强化学习
在方格3中享有权利:奖励= 5
在方格3处左移:奖励= 0
在方格3中上扬:奖励= -5
监督学习
在第3格中取得权利
左移第3格
在3格中上场
当您尝试在方格3中做出决定时,RL会知道正确的选择。监督学习会造成混乱,因为在一个示例中,您的数据说在第3格中右移,第二个示例说在左方,第三个示例说在右方。因此它将永远不会收敛。
答案 1 :(得分:0)
在监督学习中,我们假设目标标签数据是正确的。
在 RL 中,除了奖励以外,我们什么都没有。代理商需要在观察环境所获得的回报的同时,通过与环境的竞争来弄清楚自己该采取何种行动。
答案 2 :(得分:0)
简而言之,监督学习是被动学习,即在开始训练模型之前收集所有数据。
但是,强化学习是主动学习。在RL中,通常一开始您没有太多数据,并且在训练模型时会收集新数据。您的RL算法和模型决定了您在训练时可以收集哪些具体数据样本。
答案 3 :(得分:0)
监督学习是关于将监督者提供的知识(训练数据)用于未知领域(测试数据)的概括。它基于指导性反馈,其中为代理提供正确的操作(标签)以在特定情况(特征)下采取。
强化学习是关于通过反复试验通过互动学习。没有指导性反馈,只有评估性反馈,通过告知采取的行动有多好而不是说要采取的正确行动来评估代理采取的行动。