machine-learning - 监督学习线性回归

毕竟它是监督学习，意思是：你需要输入和输出。

现在的问题是：如何获得这些？这不是微不足道的！

候选人是：

历史数据（例如在线播放历史记录）
某种形式或自我发挥/强化学习（更复杂）

然后出现了一个新问题：哪个输出可用以及您将使用哪种输入。

如果有一些先验实施的AI，你可以拿这个得分。但是以历史数据为例，你只得到-1,0,1（A胜，平局，B胜），这使得学习更加困难（这触及了信用分配问题：可能有一个游戏这使得有人输了;很难理解30个动作中的哪一个导致1）的结果。这也与输入有关。以国际象棋为例，从一些在线游戏中随机获取一个位置：这个位置有可能超过1000万个游戏（或者至少不经常发生）与你的方法的预期性能相冲突。我假设输入是完整的板位。这改变了其他输入，例如象棋材料，其中输入只是片段的直方图（其中3个，其中2个）。现在，不那么独特的输入，学习会更容易。

长话短说：这是一项复杂的任务，有很多不同的方法，其中大部分都受到你的确切任务的约束！线性评估函数在强化学习方法中并不罕见。您可能希望阅读一些有关这些的文献（此函数是核心组件：例如，表查找与线性回归与神经网络近似于值或策略函数）。

我可以补充一点，你的任务表明了人工智能的自学方法，这是非常困难的，这是一个在某种程度上获得额外成功的话题（之前有成功：见步步高AI）最近几年。但是所有这些方法都非常复杂，对RL的理解以及马尔可夫决策过程等数学基础非常重要。

对于更经典的手工制作基于评估功能的AI，很多人使用额外的回归器来调整/加权已经实现的组件。 chessprogramming wiki处的一些概述。（上面的国际象棋材料例子可能是一个很好的例子：假设是：更多的东西比更少的东西;但很难给它们价值）

监督学习线性回归

1 个答案: