我正在阅读Tom Mitchell的机器学习书,第一章。
我想要做的就是编写程序来自己玩游戏,并学会在最后获胜。我的问题是它遇到的非终端董事会职位的信用分配。也许我们可以使用其特征和随机权重的线性组合来设置值,如何使用LMS规则更新它?因为除了结束状态之外我们没有训练样本。
我不确定我是否清楚地陈述了我的问题,尽管我试过。
答案 0 :(得分:1)
我没有读过那本特定的书,但我的方法如下。假设怀特赢了。然后,White通过的每个职位都应获得积极的信用,而Black所经过的每个职位都应获得负面信用。如果你重复这个推理,每当你有一组构成游戏的动作时,你应该从胜利者的所有位置添加一些分数,并从失败者的所有位置中删除一些分数。你为一堆计算机和电脑游戏做到这一点。
现在,您拥有一组数据集,其中包含一系列检查器位置和相应的分数。您现在可以计算这些位置的特征并训练您最喜欢的回归量,例如LMS。
这种方法的改进将是训练回归量,然后进行一些更多的游戏,其中根据该移动的预测得分随机抽取每个移动(即,导致具有更高分数的位置的移动具有更高的概率)。然后你更新这些分数并重新训练回归量等。