应用错误收集

提供概率意味着你正在采取一种情景，你正在采取历史性的行动，例如：来自日志，而不是执行真正的在线场景。这很有用，因为（至少有一些）Vowpal的Contextual Bandits模型可以从历史数据中引导。意思是，在历史数据中学习的语境匪徒政策可以胜过从头开始在线学习的政策 - 只有当您拥有与您的在线情景相关的历史数据时才能做到这一点。

最近对Wiki page进行了编辑，以更好地反映此格式适用于此案例。

包含概率的另一个（人为的）用例可能是你在多个环境中行事，但无论如何，在我理解的情况下，这里的概率可以被解释为仅仅是频率。

因此，我的理解是，当你没有提供历史交互数据时，没有来提供输入中的概率部分。只需在the example here中跳过它。

使用Vowpal wabbit的Contextual Bandit

1 个答案: