cb_explore
输入格式要求为每个示例指定action:cost:action_probability。
但是,其中的cb算法已经在尝试学习最佳策略,即从数据中了解每个操作的概率。那么,为什么需要输入中每个动作的概率呢?只是为了初始化吗?
答案 0 :(得分:0)
如果我的理解正确,您是在问为什么与cb_explore相关的标签是一组操作/概率对。
将标签动作的概率用作训练的重要权重。这具有放大不经常播放的动作的更新的作用,从而使它们不太可能被更频繁播放的动作淹没。
同样,这种类型的标签在预测期间非常有用,因为它会生成可用于执行无偏反事实分析的日志。换句话说,通过记录采样前播放每个动作的概率(请参阅cb_sample-这实现了如何采样单个动作/概率向量,例如在ccb简化中:https://github.com/VowpalWabbit/vowpal_wabbit/blob/master/vowpalwabbit/cb_sample.cc#L37),然后使用日志来训练另一个策略,并将其与原始策略进行比较。
请参阅“多世界测试决策服务”一文,以描述对记录的数据进行无偏离线实验的机制:https://arxiv.org/pdf/1606.03966v1.pdf