应用错误收集

奖励很低时多臂强盗是一个选择

时间：2018-12-11 07:58:44

标签： machine-learning epsilon bandit

当高拉率的奖励/点击率非常低时，多臂强盗的任何版本（EpsilonGreedy，Thompson Sampling，UCB）有什么好处。我每天有600个内容，大约3000次点击（所有内容的总点击量），处理的请求量约为一百万。这样做对实现MAB很有用，因为这种点击率对该算法是否具有统计意义。

1 个答案:

答案 0 :(得分：1)

600条内容每天都在变化还是保持不变？如果它们保持不变，那么渐近最优算法将足够快地开始执行。

即使内容内容发生变化，汤普森采样仍然可以正常工作，并为您提供远胜于随机的东西。我已经使用Thompson Sampling进行了各种实验来进行研究，并且在大多数实验中似乎进展很快。