标签: machine-learning artificial-intelligence
我正在实现一个游戏代理,它使用minimax算法进行alpha-beta修剪和早期截止。我的minimax算法在8的深度切断,并使用近似于效用值的评估函数。我已经对这个效用函数进行了硬编码。
我想使用TDLeaf算法来改变这个效用函数的常数,但我不确定采取哪个选项: 1.在对抗好对手时应用TDLeaf算法并对生成的效用函数进行硬编码。 2.保持我当前的硬编码效用函数并为我玩的每个对手应用TDLeaf算法并动态学习常量(这是不好的,因为代理总是在学习)? 3.遵循另一种策略?