嘿,我是机器学习领域的新手,最近开始阅读Tom Mitchell的机器学习一书,并且在第一章的某个部分,他谈到了估算训练值和调整权重。对估计培训价值的概念的解释会很好但我明白要解释所有这些并不容易,所以如果有人能够指出我的资源(演讲视频或简单的演讲幻灯片,我真的有义务)。或者一些文本片段,其讨论估计训练数据等的概念。
我很抱歉,我无法就我提出的问题提供更多信息。书中的部分是“Tom Mitchell的机器学习”中的1.2.4.1和1.2.4.2,如果有人读过这本书并且在理解这些章节中描述的概念时遇到同样的问题。
提前致谢。
答案 0 :(得分:4)
阿。经典教科书。我的副本有点过时但看起来我的第1.2.4节处理与您相同的主题。
首先,这是一个介绍性的章节,试图做到一般而且不会令人生畏,但结果却非常抽象,有点模糊。在这一点上,我不会太担心你不理解这些概念,你更有可能过度思考它。后面的章节将充实现在看来不清楚的事情。
此上下文中的值应被理解为某种状态或实例的质量或性能的度量,而不是一般数字中的“值”。使用他的检查器示例,具有高值的状态是对于计算机玩家而言良好/有利的板状态。
这里的主要思想是,如果你可以提供值可能遇到的每种可能的状态,并且有一组规则定义可以从当前状态到达哪些状态做哪些动作,然后你可以做出明智的决定,采取哪种行动。
但是,将值分配给状态对于游戏的最终状态来说只是一项微不足道的任务。在最终状态获得的值通常称为奖励。目标当然是最大化奖励。 估算训练值是指根据您稍后在游戏中获得的结果将猜测值分配给中间状态的过程。
所以,在玩很多训练游戏时,你会记录下你遇到的状态,如果你发现一些状态X导致状态Y,你可以根据当前的估计值改变你的X估计值。对于X和Y的当前估计。这就是“估计训练权重”的全部内容。通过反复训练,模型得以体验,估计值应收敛到可靠值。它将开始避免导致失败的动作,并支持导致胜利的动作。有许多不同的方式来进行这样的更新,以及许多不同的方式来表示游戏状态,但这正是本书其余部分的内容。
我希望这有帮助!