Vowpal Wabbit可以处理数据量~90 GB吗?

时间:2014-03-30 11:55:07

标签: machine-learning scalability bigdata logistic-regression vowpalwabbit

我们从搜索引擎查询日志数据中提取了特征,并且特征文件(根据Vowpal Wabbit的输入格式)达到90.5 GB。这种巨大尺寸的原因是我们的功能构造中必要的冗余。 Vowpal Wabbit声称能够在几个小时内处理数据TB。除此之外,VW使用哈希函数,几乎不需要RAM。但是当我们使用VW对我们的数据进行逻辑回归时,在几分钟内,它会耗尽所有RAM然后停止。 这是我们使用的命令 -

vw -d train_output --power_t 1  --cache_file train.cache -f data.model 
--compressed --loss_function logistic --adaptive --invariant 
--l2 0.8e-8 --invert_hash train.model

train_output是我们想要训练VW的输入文件,train.model是训练后获得的预期模型

欢迎任何帮助!

1 个答案:

答案 0 :(得分:6)

我发现--invert_hash选项成本极高;尝试没有该选项运行。您也可以尝试启用--l1正则化选项以减少模型中的系数数量。

您的模型中有多少功能?每行有多少个功能?