我正在使用vowpal-wabbit进行二进制分类。特定记录(特征集)有10个零和5个。所以,我正在用vowpal格式创建两行
-1 10 `50 |f f1
1 5 `50 |f f1
由于这两个记录的预测(概率)相同,我希望保留相同的标记,以便我可以稍后重复预测({tag,prediction})并加入我原始的原始数据。 是否可以在vowpal-wabbit中为多个记录保留相同的标记?
答案 0 :(得分:1)
首先,上面的语法不正确
要识别,标签应该是:
|
分隔符(它们之间没有空格)或(或两者)。
否则你得到:
warning: `50 is not a good float, replacing with 0
warning: `50 is not a good float, replacing with 0
提示vw
解释这些"标签"作为预测基础。
有关详细信息,请参阅Input format in the official documentation
将示例修复为正确的语法后:
-1 10 '50|f f1
1 5 '50|f f1
哪个运行正常,我们可以回答这个问题:
是否可以在vowpal-wabbit中为多个记录保留相同的标记?
是的,你可以。标签只是连接输入和输出的简单方法(当涉及预测时),在任何地方都没有检查唯一性。如果您在输入上复制标记,您只需在预测输出上获得相同的重复标记。
vw
是在线学习者,因此除非您添加-t
(仅限测试,不要学习)选项,否则模型可以随每个示例不断更改。vw
中说出这一点的标准方法是“积极的”#39;这是“消极的”#39;是使用值{+1, -1}
。对于标签和输入功能都是如此。