我们从搜索引擎查询日志数据中提取了特征,并且特征文件(根据Vowpal Wabbit的输入格式)达到90.5 GB。这种巨大尺寸的原因是我们的功能构造中必要的冗余。 Vowpal Wabbit声称能够在几个小时内处理数据TB。除此之外,VW使用哈希函数,几乎不需要RAM。但是当我们使用VW对我们的数据进行逻辑回归时,在几分钟内,它会耗尽所有RAM然后停止。 这是我们使用的命令 -
vw -d train_output --power_t 1 --cache_file train.cache -f data.model
--compressed --loss_function logistic --adaptive --invariant
--l2 0.8e-8 --invert_hash train.model
train_output是我们想要训练VW的输入文件,train.model是训练后获得的预期模型
欢迎任何帮助!
答案 0 :(得分:6)
我发现--invert_hash
选项成本极高;尝试没有该选项运行。您也可以尝试启用--l1
正则化选项以减少模型中的系数数量。
您的模型中有多少功能?每行有多少个功能?