此问题与我past question关于检索预测概率的问题有关。
我的目标是使用大众的上下文强盗模块来训练一个模型,该模型可以预测给定新测试样本的最佳动作。我想要做的是检索" top k"行动,,而不仅仅是单一行动,如标准上下文多臂强盗(CMAB)设置。
我想知道" - top arg"旗。在vw --help中,它在减少选项下列出如下:
--top arg top k recommendation
我试图通过以下方法将此标志与上下文强盗模块一起使用。
首先,我在train.dat中训练一个带有离线记录数据的初始模型(有30个动作可用;因此--cb 30)
vw -d train.dat --cb 30 -f cb.model --save_resume
然后,我尝试测试此模型以检索test.dat
中的测试样本的前5个推荐vw -t -d test.dat -i cb.model --top 5 -p test.predict
但是,我的test.predict文件只包含1个推荐。我希望看到5个动作,给出--top 5 flag。我想知道在理解使用' - top'旗。
提前谢谢!