应用错误收集

强化学习中的“强化”指的是如何鼓励某些行为，而其他人则不鼓励。通过环境经验获得的奖励可以加强行为。

现代强化学习建立在两个主线之上。一个主题涉及通过反复试验而学习，起源于动物学习心理学。第二个线程涉及最佳控制问题，这是使用值函数和动态编程的解决方案（Sutton和Barto。，2018年）。强化学习从第一批研究中借用了他的名字。根据沃特金斯（Watkins，1989）的研究，在研究动物的学习能力时，可以自动为动物提供增强剂。从行为上讲，例如，正强化剂可能是饥饿动物的食物，或者是口渴动物的水。相反，负加强筋可能是电击。

PS。沃特金斯提出了Q学习算法。

编辑：（添加了更多历史记录）

根据萨顿和巴托（Sutton and Barto，2018）：“动物学习中的术语“ reinforcement ”（动物群中的“ 增强”）在Thorndike的“效应法则”表达之后就得到了很好的应用，据我们所知）在1927年巴甫洛夫（Pavlov）关于条件反射的专着的英文译本中，巴甫洛夫将强化描述为对行为模式的强化。对接受刺激（增强剂）的动物具有与另一刺激或反应适当的时间关系。”

萨顿，理查德·S和安德鲁·G·巴托。强化学习：简介。麻省理工学院出版社，2018.
Thorndike，E。L.，动物情报。哈夫纳（Hafner），康涅狄格州达里安，1911年。
沃特金斯，克里斯托弗·约翰·康沃尔·海拉比。 “从延迟的奖励中学习。” （1989）。

通过反复试验加强强化学习。不正确（或低于最佳）的结果不需要手动纠正。相反，重点是探索，反馈（强化）是从这些经历中获得的。

为什么RL称为“强化”学习？

3 个答案: