应用错误收集

权重更新和估计播放检查中的训练示例值

时间：2012-09-13 22:55:40

标签： machine-learning artificial-intelligence

我正在阅读Tom Mitchell的机器学习书，第一章。

我想要做的就是编写程序来自己玩游戏，并学会在最后获胜。我的问题是它遇到的非终端董事会职位的信用分配。也许我们可以使用其特征和随机权重的线性组合来设置值，如何使用LMS规则更新它？因为除了结束状态之外我们没有训练样本。

我不确定我是否清楚地陈述了我的问题，尽管我试过。

1 个答案:

答案 0 :(得分：1)

我没有读过那本特定的书，但我的方法如下。假设怀特赢了。然后，White通过的每个职位都应获得积极的信用，而Black所经过的每个职位都应获得负面信用。如果你重复这个推理，每当你有一组构成游戏的动作时，你应该从胜利者的所有位置添加一些分数，并从失败者的所有位置中删除一些分数。你为一堆计算机和电脑游戏做到这一点。

现在，您拥有一组数据集，其中包含一系列检查器位置和相应的分数。您现在可以计算这些位置的特征并训练您最喜欢的回归量，例如LMS。

这种方法的改进将是训练回归量，然后进行一些更多的游戏，其中根据该移动的预测得分随机抽取每个移动（即，导致具有更高分数的位置的移动具有更高的概率）。然后你更新这些分数并重新训练回归量等。