如何获取大型语料库的tf-idf矩阵,其中预先指定了功能?

时间:2014-04-11 14:21:12

标签: python scikit-learn

我有一个包含3,500,000个文本文档的语料库。我想构建一个(3,500,000 * 5,000)大小的tf-idf矩阵。在这里,我有5,000个不同的特征(单词)。

我在python中使用scikit sklearn。我在哪里使用TfidfVectorizer来做到这一点。我已经构建了一个5000大小的字典(每个特征一个)。在初始化TfidfVectorizer时,我正在使用功能字典设置参数vocabulary。但是在调用fit_transform时,它会显示一些内存映射,然后是“CORE DUMP”。

  1. TfidfVectorizer对固定词汇和大型语料库有效吗?
  2. 如果没有,那么其他选项是什么?

1 个答案:

答案 0 :(得分:0)

其他选项可以是gensim,它在内存方面非常高效且非常快。 以下是您的语料库的link到其tf-idf教程。