使用Vowpal wabbit的Contextual Bandit

时间:2015-05-25 11:17:00

标签: vowpalwabbit

在这种情况下,其中一个输入是选择手臂/动作的概率,但我们如何找到该概率? 是不是发现概率本身就是一个大任务?

1 个答案:

答案 0 :(得分:0)

提供概率意味着你正在采取一种情景,你正在采取历史性的行动,例如:来自日志,而不是执行真正的在线场景。这很有用,因为(至少有一些)Vowpal的Contextual Bandits模型可以从历史数据中引导。意思是,在历史数据中学习的语境匪徒政策可以胜过从头开始在线学习的政策 - 只有当您拥有与您的在线情景相关的历史数据时才能做到这一点。

最近对Wiki page进行了编辑,以更好地反映此格式适用于此案例。

包含概率的另一个(人为的)用例可能是你在多个环境中行事,但无论如何,在我理解的情况下,这里的概率可以被解释为仅仅是频率。

因此,我的理解是,当你没有提供历史交互数据时,没有来提供输入中的概率部分。只需在the example here中跳过它。