我理解为什么机器学习被这样命名,并且最重要的是监督和无监督学习背后的命名。那么强化学习的强化是什么?
答案 0 :(得分:1)
强化学习中的“强化”指的是如何鼓励某些行为,而其他人则不鼓励。通过环境经验获得的奖励可以加强行为。
答案 1 :(得分:1)
现代强化学习建立在两个主线之上。一个主题涉及通过反复试验而学习,起源于动物学习心理学。第二个线程涉及最佳控制问题,这是使用值函数和动态编程的解决方案(Sutton和Barto。,2018年)。 强化学习从第一批研究中借用了他的名字。根据沃特金斯(Watkins,1989)的研究,在研究动物的学习能力时,可以自动为动物提供增强剂。从行为上讲,例如,正强化剂可能是饥饿动物的食物,或者是口渴动物的水。相反,负加强筋可能是电击。
PS。沃特金斯提出了Q学习算法。
编辑:(添加了更多历史记录)
根据萨顿和巴托(Sutton and Barto,2018):“动物学习中的术语“ reinforcement ”(动物群中的“ 增强”)在Thorndike的“效应法则”表达之后就得到了很好的应用,据我们所知)在1927年巴甫洛夫(Pavlov)关于条件反射的专着的英文译本中,巴甫洛夫将强化描述为对行为模式的强化。 对接受刺激(增强剂)的动物具有与另一刺激或反应适当的时间关系。”
萨顿,理查德·S和安德鲁·G·巴托。强化学习:简介。麻省理工学院出版社,2018.
Thorndike,E。L.,动物情报。哈夫纳(Hafner),康涅狄格州达里安,1911年。
沃特金斯,克里斯托弗·约翰·康沃尔·海拉比。 “从延迟的奖励中学习。” (1989)。
答案 2 :(得分:0)
通过反复试验加强强化学习。不正确(或低于最佳)的结果不需要手动纠正。相反,重点是探索,反馈(强化)是从这些经历中获得的。