Question

此问题与我past question关于检索预测概率的问题有关。

我的目标是使用大众的上下文强盗模块来训练一个模型，该模型可以预测给定新测试样本的最佳动作。我想要做的是检索＆＃34; top k＆＃34;行动，，而不仅仅是单一行动，如标准上下文多臂强盗（CMAB）设置。

我想知道＆＃34; - top arg＆＃34;旗。在vw --help中，它在减少选项下列出如下：

  --top arg                             top k recommendation

我试图通过以下方法将此标志与上下文强盗模块一起使用。

首先，我在train.dat中训练一个带有离线记录数据的初始模型（有30个动作可用;因此--cb 30）

vw -d train.dat --cb 30 -f cb.model --save_resume

然后，我尝试测试此模型以检索test.dat

中的测试样本的前5个推荐

vw -t -d test.dat -i cb.model --top 5 -p test.predict

但是，我的test.predict文件只包含1个推荐。我希望看到5个动作，给出--top 5 flag。我想知道在理解使用＆＃39; - top＆＃39;旗。

提前谢谢！