Question

我们从搜索引擎查询日志数据中提取了特征，并且特征文件（根据Vowpal Wabbit的输入格式）达到90.5 GB。这种巨大尺寸的原因是我们的功能构造中必要的冗余。 Vowpal Wabbit声称能够在几个小时内处理数据TB。除此之外，VW使用哈希函数，几乎不需要RAM。但是当我们使用VW对我们的数据进行逻辑回归时，在几分钟内，它会耗尽所有RAM然后停止。这是我们使用的命令 -

vw -d train_output --power_t 1  --cache_file train.cache -f data.model 
--compressed --loss_function logistic --adaptive --invariant 
--l2 0.8e-8 --invert_hash train.model

train_output是我们想要训练VW的输入文件，train.model是训练后获得的预期模型

欢迎任何帮助！

Answer 1

我发现--invert_hash选项成本极高;尝试没有该选项运行。您也可以尝试启用--l1正则化选项以减少模型中的系数数量。

您的模型中有多少功能？每行有多少个功能？

Vowpal Wabbit可以处理数据量~90 GB吗？

1 个答案: