类似强盗的算法优化参数?

时间:2014-07-07 20:43:34

标签: algorithm machine-learning mathematical-optimization bayesian ab-testing

我需要一种算法来优化我向用户显示消息的一周时间,以确保用户点击消息的概率最高。

显示消息时,将使用日期/时间以及用户是否单击来更新数据库条目。目标是最大化点击率。

我非常习惯使用贝叶斯匪(也称为汤普森采样)(https://github.com/omphalos/bayesian-bandit.js)来优化N个离散参数,但我对如何将其应用于连续值感到茫然

我很清楚标准爬山算法,但我只知道如何在没有统计噪声的情况下应用爬山。是否有一种简单的贝叶斯方式进行爬山,以优化勘探/开采权衡?

对于奖励积分,是否有一种方法可以推广到多维度,因此同时优化多个参数以在多维空间中找到最佳点?

2 个答案:

答案 0 :(得分:4)

与贝叶斯匪徒密切相关的是贝叶斯混合模型。您可以将贝叶斯强盗视为贝叶斯混合delta functions。这将删除离散性约束。相反,您可以将连续空间上的分布建模为连续值随机变量的总和。例如,您可以假设有5个点击源和#34;每个点都在一小时左右(上午8点,上午9点......)正常分布,标准差为15分钟。所以,当你在8点05分点击时,你会将它大量归因于8am模型,较少的数量到早上9点,相当于上午10点的数量,依此类推。

估算混合模型的常用算法是Expectation-Maximization。您应该能够找到良好的开源实现。请注意,上述描述(和EM)在多变量情况下仍然存在。

答案 1 :(得分:2)

我建议您将奖励函数视为高斯过程,以便在存在连续参数的情况下使其变为漂亮且贝叶斯。基本上你有一个回归问题,其中支付(t)是一个连续t估计的函数,你想要一个策略来挑选t的值,这些值用于利用开发(具有高后验方差的函数空间区域)进行交易(区域功能空间很高的期望)。

此前有相关工作,例如this paper以及作者的其他作品。