奖励很低时多臂强盗是一个选择

时间:2018-12-11 07:58:44

标签: machine-learning epsilon bandit

当高拉率的奖励/点击率非常低时,多臂强盗的任何版本(EpsilonGreedy,Thompson Sampling,UCB)有什么好处。我每天有600个内容,大约3000次点击(所有内容的总点击量),处理的请求量约为一百万。这样做对实现MAB很有用,因为这种点击率对该算法是否具有统计意义。

1 个答案:

答案 0 :(得分:1)

600条内容每天都在变化还是保持不变?如果它们保持不变,那么渐近最优算法将足够快地开始执行。

即使内容内容发生变化,汤普森采样仍然可以正常工作,并为您提供远胜于随机的东西。我已经使用Thompson Sampling进行了各种实验来进行研究,并且在大多数实验中似乎进展很快。