监督学习线性回归

时间:2018-03-11 22:08:18

标签: machine-learning

我很担心线性回归在监督学习中的作用。现在我想使用线性回归为棋盘游戏生成评估函数,所以我需要输入数据和输出数据。输入数据是我的电路板条件,我需要相应的条件,对吧?但是我怎样才能获得这个期望值呢?我是否需要先自己编写评估函数?但我认为我需要使用线性回归生成一个evluation函数,所以我对此有点困惑。

1 个答案:

答案 0 :(得分:2)

毕竟它是监督学习,意思是:你需要输入和输出。

现在的问题是:如何获得这些?这不是微不足道的!

候选人是:

  • 历史数据(例如在线播放历史记录)
  • 某种形式或自我发挥/强化学习(更复杂)

然后出现了一个新问题:哪个输出可用以及您将使用哪种输入。

如果有一些先验实施的AI,你可以拿这个得分。但是以历史数据为例,你只得到-1,0,1(A胜,平局,B胜),这使得学习更加困难(这触及了信用分配问题:可能有一个游戏这使得有人输了;很难理解30个动作中的哪一个导致1)的结果。这也与输入有关。以国际象棋为例,从一些在线游戏中随机获取一个位置:这个位置有可能超过1000万个游戏(或者至少不经常发生)与你的方法的预期性能相冲突。我假设输入是完整的板位。这改变了其他输入,例如象棋材料,其中输入只是片段的直方图(其中3个,其中2个)。现在,不那么独特的输入,学习会更容易。

长话短说:这是一项复杂的任务,有很多不同的方法,其中大部分都受到你的确切任务的约束!线性评估函数在强化学习方法中并不罕见。您可能希望阅读一些有关这些的文献(此函数是核心组件:例如,表查找与线性回归与神经网络近似于值或策略函数)。

我可以补充一点,你的任务表明了人工智能的自学方法,这是非常困难的,这是一个在某种程度上获得额外成功的话题(之前有成功:见步步高AI)最近几年。但是所有这些方法都非常复杂,对RL的理解以及马尔可夫决策过程等数学基础非常重要。

对于更经典的手工制作基于评估功能的AI,很多人使用额外的回归器来调整/加权已经实现的组件。 chessprogramming wiki处的一些概述。 (上面的国际象棋材料例子可能是一个很好的例子:假设是:更多的东西比更少的东西;但很难给它们价值)