应用错误收集

我正在实现一个游戏代理，它使用minimax算法进行alpha-beta修剪和早期截止。我的minimax算法在8的深度切断，并使用近似于效用值的评估函数。我已经对这个效用函数进行了硬编码。

我想使用TDLeaf算法来改变这个效用函数的常数，但我不确定采取哪个选项：

1.在对抗好对手时应用TDLeaf算法并对生成的效用函数进行硬编码。
2.保持我当前的硬编码效用函数并为我玩的每个对手应用TDLeaf算法并动态学习常量（这是不好的，因为代理总是在学习）？
3.遵循另一种策略？