实现TDLeaf算法

时间:2015-04-26 21:24:06

标签: machine-learning artificial-intelligence


我正在实现一个游戏代理,它使用minimax算法进行alpha-beta修剪和早期截止。我的minimax算法在8的深度切断,并使用近似于效用值的评估函数。我已经对这个效用函数进行了硬编码。

我想使用TDLeaf算法来改变这个效用函数的常数,但我不确定采取哪个选项:

1.在对抗好对手时应用TDLeaf算法并对生成的效用函数进行硬编码。
2.保持我当前的硬编码效用函数并为我玩的每个对手应用TDLeaf算法并动态学习常量(这是不好的,因为代理总是在学习)?
3.遵循另一种策略?

0 个答案:

没有答案