应用错误收集

如何减少Scikit-Learn Vectorizers的内存使用量？

时间：2013-07-08 21:36:36

标签： python numpy machine-learning scipy scikit-learn

TFIDFVectorizer占用了大量内存，向量化470 MB的100k文档需要超过6 GB，如果我们有2100万个文档，它将不适合我们拥有的60 GB RAM。

所以我们去HashingVectorizer，但仍然需要知道如何分发散列矢量器.Fit和partial fit什么都不做，所以如何使用Huge Corpus？

2 个答案:

答案 0 :(得分：9)

我强烈建议您在大型数据集上拟合模型时使用HashingVectorizer。

HashingVectorizer与数据无关，只有vectorizer.get_params()中的参数很重要。因此（un）酸洗`HashingVectorizer实例应该非常快。

基于词汇表的矢量化器更适合小型数据集的探索性分析。

答案 1 :(得分：0)

克服HashingVectorizer无法解释IDF的一种方法是将您的数据索引到elasticsearch或lucene，并从那里检索termvectors，您可以使用它来计算Tf-IDF。