UCB1算法的探索常数

时间:2015-05-14 04:56:15

标签: algorithm

我目前正在为游戏编写UCB1算法。我正在使用的算法是:

average(i) + sqrt( (2 * ln(totalcount)) / count(i) )

averagei 是第i组的平均分数, count(i)是第i组的数量,总数是总数所有武器的样本。这是给定手臂i的分数的等式。选择具有最高分数max(i)的手臂进行采样。然后,该算法使用从该样本中获得的新数据,无限制地重复该等式,或直到它耗尽思考时间。

我有一个任务告诉我“修改探测常数”算法。我也注意到它几乎一直都在利用而不是探索 - 它几乎没有试过它只访问过一次的武器。但是,我没有看到任何探索不变。我错过了算法的某些部分吗?

1 个答案:

答案 0 :(得分:2)

2是探索常数。它越大,算法越有利于探索而不是开发。

还要注意,只有当收益在[0,1]范围内时,这个公式才有意义,否则一个大的收益(比如说1000)将使"探索"的影响无效。该公式的一部分,实际上只是开发利用。