Vowpal Wabbit培训和测试数据格式

时间:2014-11-15 00:20:45

标签: machine-learning regression vowpalwabbit

我正在尝试使用Vowpal Wabbit,我正在计算培训和测试所需的文件格式。我一直在关注https://github.com/JohnLangford/vowpal_wabbit/wiki/Tutorial的教程,看到以下是培训数据格式:

0 | price:.23 sqft:.25 age:.05 2006
1 2 'second_house | price:.18 sqft:.15 age:.35 1976
0 1 0.5 'third_house | price:.53 sqft:.32 age:.87 1924

对于测试数据,我没有标签或任何输出,只有功能。我该如何写出来呢?我尝试过包含以下功能:

price:.23 sqft:.25 age:.05 2006
price:.18 sqft:.15 age:.35 1976
price:.53 sqft:.32 age:.87 1924

但是,这给了我例外,因为它不是正确的格式。我也尝试了以下内容,所有结果都只给了我0:

| price:.23 sqft:.25 age:.05 2006
| price:.18 sqft:.15 age:.35 1976
| price:.53 sqft:.32 age:.87 1924

0 0 0 | price:.23 sqft:.25 age:.05 2006
0 0 0 | price:.18 sqft:.15 age:.35 1976
0 0 0 | price:.53 sqft:.32 age:.87 1924

任何我应该瞄准的格式,只知道这些功能?谢谢你的帮助。

1 个答案:

答案 0 :(得分:6)

条形符号(|)也必须采用预测格式:

| price:.23 sqft:.25 age:.05 2006
| price:.18 sqft:.15 age:.35 1976
| price:.53 sqft:.32 age:.87 1924

如果您没有包含正确的标签,当然,vw无法计算测试损失。 要获得预测,请使用vw -d test_set.vw -t -p predictions.txt。教程中的训练集(仅有三个例子)太小,无法训练任何合理的模型。