我已经创建了一个可以播放奥赛罗的小型AI程序。我使用的算法(MCTS UTC)有一个参数,我可以调整探索与开发比率。这是一个从0到10的单个浮点值(无穷大是可能的,但高值没有多大意义)
我可以轻松地让算法与此参数的不同值进行比较。这会让我知道这两个值中的哪一个更好。
优化此参数的优秀算法是什么?
(我更喜欢有一些研究或出版物的算法,以深入了解为什么或什么时候效果最好。)
答案 0 :(得分:1)
根据遗传算法的顺序考虑一些事情,其中程序与自身一起玩,并且保持优胜者比例,并且稍微变化。跟踪价值观。随着时间的推移,它可能会收敛到最好的'平衡。